## EXPRESIONES REGULARES

Expresiones que sirven para la busqueda de patrones en un texto por medio del uso de "cadenas especificas".

### **Log de ejemplo 1.** procedimiento manual. 

In [None]:
log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Tenemos un mensaje que sale en un log. Nuestro interes es extraer partes de el mensaje. 

index = log.index("[")

"""De manera manual extraemos la posición índice del caracter "["
Al conocer con exactitud donde está el número que queremos extraer podemos:
recorrer la cadena desde esta posición hasta 5 indices más. Logrando extraer el número. 
"""
print(log[index+1:index+6])


12345


## Utilizando el módulo de expresiones regulares

In [15]:
import re

log = "July 31 07:51:48 mycomputer bad_process[12345]: ERROR Performing package upgrade"

# Podemos notar como usamos un patron de busqueda. 
regex = r"\[(\d+)\]"

# Utilizamos la función de busqueda, le pasamos el argumento y la cadena. 

result = re.search(regex, log)

# result es un tipo de objeto re.Match
"""
<re.Match object; span=(39, 46), match='[12345]'>

la función re.search() devuelve un objeto Match porque el registro de cadenas contiene una coincidencia con la expresión regular. El objeto Match tiene un método group() que devuelve los grupos capturados de la coincidencia. En este caso, el único grupo capturado es el número, que es devuelto por la expresión result[1].
"""

print(result[1])

12345


## Desglose expresión regular

> r"\[(\d+)\]"

r"" : Hace referencia a un "raw string" , permite que los caracteres (\n, \t, \\, etc.) no se interpretan, sino que se pasan "crudos" directamente a la expresión regular.

🔹 Qué pasa con un string normal en Python

En Python, al escribir un string sin la r, Python primero interpreta los caracteres de escape antes de pasarlos a la expresión regular.

s = "\n"    

Python interpreta esto como un salto de línea
print(s)    :  Salto de línea, no ves "\n"


Si intentas hacer una regex con:

regex = "\d+"


➡️ Python piensa: \d no es un escape válido dentro de un string normal, así que lo trata como d.
Es decir, la regex resultante es "d+", no “\d+”.

🔹 Qué pasa con un raw string

Cuando agregas la r delante, Python no interpreta los escapes, sino que los deja tal cual están escritos.

s = r"\n"
print(s)    # Se imprime \n (dos caracteres: \ y n)


Si haces:

regex = r"\d+"


➡️ Python envía al motor de regex exactamente el texto \d+.
El motor de regex sabe que \d significa “dígito”, así que funciona como esperas.

---

➡️ **```2. \[ \]```**

Los corchetes son caracteres especiales en regex, pero aquí se escapan con \.

\[ significa un corchete abierto literal [

\] significa un corchete cerrado literal ]

Por lo tanto, la expresión busca texto que esté entre corchetes.

---

➡️ **```3. (\d+)```**

Los paréntesis () forman un grupo de captura. Lo que coincida dentro de ellos se podrá recuperar aparte.

\d significa un dígito numérico (equivalente a [0-9]).

+ significa uno o más dígitos.

En conjunto, (\d+) captura un número entero de cualquier longitud.

## **GREP** 

Herramienta clásica de Linux/Unix que sirve para buscar texto en archivos utilizando la linea de comandos.

Podemos utilizar: 

```bash
grep thon usr\share\dictwords
```

Utilizamos grep para en que palabras del archivo "usr\share\dictwords" aparece la cadena "thon"

Retornará una lista de palabras que contienen esta cadena, y  con la cadena en cuestión  resaltada.

Se puede utilizar el parámetro **-i** para que ignore distinción entre maysuculas y minusculas. 

```bash
grep -i thon usr\share\dictwords
```

---

### Busqueda por un patrón de "."

Permite que conincida con cualquier cosa por lo tanto: 

```bash
grep l.rts usr\share\dictwords
```

Nos puede traer un número n de coincidencias (Palabras) donde el punto puede ser cualquier caracter: 

Ejm: 
```alerts``` => Vinede de : al.rts 
```blurts``` => Vinede de : bl.rts
```flirts``` => Vinede de : fl.rts

El punto en el patro fue sustituido por letras diferente. Nos permitió encontrar diferentes entradas sin conocer ninguna de estas palabras. Podemos usar estos patrones para buscar. 

---

## **El circunflejo [^] y el símbolo del dólar [$] son caracteres de anclaje.**

El circunflejo y el símbolo del dólar coinciden específicamente con el inicio y el final de una línea o cadena, pero no necesariamente con las palabras en sí.

### Buscar todas las cadenas que comienzan por un patron 

Podemos utilizar: 

```bash
grep ^fruit usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

```fruit```ing |  ```fruit```ion  |  ```fruit```less 

---

### Buscar todas las palabras que terminan por un patron 

Podemos utilizar: 

```bash
grep cat$ usr\share\dictwords
```

traera todas las palabras que comienzen por este patron.  Ejm:

copy```cat``` |  du```cat```  |  lot```cat```

---

---

## **Emparejamiento simple en python**


In [18]:
import re

# Recordemos: Nos retorna un objeto re.Match que nos confirma la coincidencia, en caso contrario retorna None. 

result = re.search(r"aza", "plaza")
print(result)

<re.Match object; span=(2, 5), match='aza'>


In [None]:
import re

# Podemos notar que además el objeto re.Match retorna los indices poscionales donde está la primera coincidencia.  
result = re.search(r"aza", "bazaar del azar")
print(result)

# <re.Match object; span=(1, 4), match='aza'> indices del 1 al 4 sin cerrado al principio abierto al final es decir:  (1,2,3) 

<re.Match object; span=(1, 4), match='aza'>


#### Notemos que devolverá el patron de busqueda NO LA PALABRA QUE LO CONTIENE

--- 


## **Emparejamiento con reservados.**

El funcionamiento de los simbolos reservados **```$```** , **```^```** y **```.```** es identico a como funcionan en la herramienta **```grep```**

In [None]:
import re
## Podemos notar como no hay un retorno. (No hay coincidencia)
result = re.search(r"aza", "maze")
print(result) # None sin coincidencia


print(re.search(r"^x", "xenon"))  # Nos devuelve el objeto re.Match

result2 = re.search(r"^x","xenon") 
print(result2[0]) #Nos la busqueda el valor del parámetro match en re.Match


None
<re.Match object; span=(0, 1), match='x'>
x


In [None]:
import re
print(re.search(r"p.ng", "penguin")) # En el match retorna el patron de busqueda con el reservado "." sustituido por la letra donde correspondiente a la palabra donde encontó el patron. 

# print(re.search(r"p.ng", "penguin")) 
# returns => <re.Match object; span=(0, 4), match='peng'>

# print(re.search(r"p.ng", "punged"))
# returns => <re.Match object; span=(0, 4), match='pung'>

# print(re.search(r"p.ng", "pang"))
# returns => <re.Match object; span=(0, 4), match='pang'>
# Ojo no está retornando la palabra sino el patron con la letra sustituida. En este caso hay coincidencia. 


<re.Match object; span=(0, 4), match='peng'>


In [None]:
# Ejemplos adicionales.
import re
print(re.search(r"p.ng", "clapping"))
print(re.search(r"p.ng", "sponge"))

<re.Match object; span=(4, 8), match='ping'>
<re.Match object; span=(1, 5), match='pong'>


## Utilización del caracter reservado . multiples veces. 
```python
import re
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return result != None

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Notemos que buscamos si existen un patron "a.e.i" es decir "a(una letra)e(otra letra)i
Si se obtiene un patron vamos a obtener un objeto del tipo re.Match , que es diferente a None. Por lo tanto la función en este caso retornará **True**

Podemos intuir que estos son los patrones: 
1. ademi
2. None
3. amedi

En efecto: 

```python
# Modificando el método anterior tenemos: 
def check_aei (text):
  result = re.search(r"a.e.i", text)
  return (result != None, result)

print(check_aei("academia")) # True
print(check_aei("aerial")) # False
print(check_aei("paramedic")) # True
```

Nos retorna en efecto los patrones que habiamos previsto. 

```bash
(True, <re.Match object; span=(2, 7), match='ademi'>)
(False, None)
(True, <re.Match object; span=(3, 8), match='amedi'>)
```

In [None]:
import re
print(re.search(r"p.ng", "Pangaea", re.IGNORECASE))

## re.IGNORECASE Permite que no haya ninguna distinción entre mayusculas y minusculas.  

## **Comodines y clases de personajes.**

El comodin "." puede coincidir con cualquier cosa es el caracter más amplio. Puede englobar cualquier cosa. 

Podemos limitar estos comodines para busquedas mas estrictas y precisas. Eso se llama **clase de caracteres** 

Se escriben entre corchetes y vamos a enumerar lo que queremos que coindida dnetro de estos corchetes. 


In [None]:
import re

# Queremos hacer coincidir , buscar la palábra python , pero que se admita tanto mayuscula : Python como minuscula python. Así podemos usar. 

# r"[Pp]ython" Las letras en los corchetes son validas (ambas) por lo que la expresión completa buscará Python y python , y si encuentra retorna el objeto re.Match

print(re.search(r"[Pp]ython", "Python"))

<re.Match object; span=(0, 6), match='Python'>


In [None]:

import re

#Similarmente podemos definir un rango especifico de caracteres utilizando un "-" de por medio.

#Luego [a-z] toma todas las minusculas desde la a a la z, en este caso cualquier cadena o subcadena que tenga una letra minuscula cualquiera precediendo a "way" será tomada en cuenta.

print(re.search(r"[a-z]way", "The end of the highway"))
"""<re.Match object; span=(18, 22), match='hway'>"""

print(re.search(r"[a-z]way", "What a way to go"))
"""None"""

# Podemos notar que los espacios en blanco no se toman en cuenta. Por eso la subcandena 
# " way" no se toma en consideración  y retorna None.

<re.Match object; span=(18, 22), match='hway'>
None
<re.Match object; span=(0, 6), match='cloudy'>
<re.Match object; span=(0, 6), match='cloud9'>


## **Combinación de rangos especificos.**

Podemos utilizar rangos especificos como 

1. [a-z] : Para todas las minusculas
2. [A-Z] : Letras mayusculas
3. [0-9] : Numeros del 0 al 9

y podemos combinar estos rangos para una sola expresión. 

```bash
re.search(r"[a-z]")

re.search(r"[a-zA-Z]") Toma todas las mayusculas y las minusculas. 
```


In [5]:
import re
print(re.search(r"[a-zA-Z]", "cloud"))
print(re.search(r"[^a-zA-Z]", "cloud"))

<re.Match object; span=(0, 1), match='c'>
None


In [None]:
print(re.search("cloud[a-zA-Z0-9]", "cloudy"))
# Buscamos cualquier coincidencia luego del patron cloud(aquí) que sea letra de cualquier clase 
# ó número.

print(re.search("cloud[a-zA-Z0-9]", "cloud9"))


<re.Match object; span=(0, 6), match='cloudy'>
<re.Match object; span=(0, 6), match='cloud9'>


In [None]:
import re
print(re.search(r"[^a-zA-Z]", "This is a sentence with spaces.")) 

"""1. El patrón: r"[^a-zA-Z]"

[...] → define un conjunto de caracteres permitidos.

a-z → todas las letras minúsculas de la a a la z.

A-Z → todas las letras mayúsculas de la A a la Z.

^ dentro de los corchetes y al inicio → niega el conjunto (o sea: “cualquier carácter que NO esté en esta lista”).

👉 Entonces [^a-zA-Z] significa:
“Encuentra el primer carácter que NO sea una letra (ni mayúscula ni minúscula)”.

Primer caracter que cumple: Un espacio en blanco:

Salida => <re.Match object; span=(4, 5), match=' '>
"""

print(re.search(r"[^a-zA-Z ]", "This is a sentence with spaces."))



<re.Match object; span=(4, 5), match=' '>
<re.Match object; span=(30, 31), match='.'>


## **Sensibilidad a los espacios en las expresiones regulares.**
En las combinaciones de las clases, un espacio en blanco puede tener relevancias determinadas. 

In [9]:
print(re.search(r"[^a-zA-Z]", "This is a sentence with spaces."))
print(re.search(r"[^a-zA-Z ]", "This is a sentence with spaces."))

# las expresiones dicen. 
# [^a-zA-Z] “Encuentra el primer carácter que NO sea una letra (ni mayúscula ni minúscula)”.
# [^a-zA-Z ] “Encuentra el primer carácter que NO sea una letra (ni mayúscula ni minúscula) y 
# TAMPOCO sea un espacio en blanco”.

<re.Match object; span=(4, 5), match=' '>
<re.Match object; span=(30, 31), match='.'>


## **Consideraciones sobre el anclaje ^**

### **1. Fuera de corchetes ^**

Cuando ^ aparece fuera de corchetes, significa anclaje al inicio de la cadena.
Ejemplo:

re.search(r"^Hola", "Hola mundo")


✅ Encuentra "Hola" porque está al principio.

---

### **2. Dentro de corchetes [^...]**

Si está al inicio del corchete, significa negación.

Ejemplo:

re.search(r"[^0-9]", "1234a")


👉 Encuentra "a", porque es el primer carácter que no es un dígito.

Especial: 

Si no está en primera posición, pierde ese efecto y solo representa un literal ^.

re.search(r"[0-9^]", "5^7")


👉 Encuentra "5" primero, y el ^ es solo un carácter permitido.

## Operadores lógicos en las expresiones regulares. 


In [11]:
print(re.search(r"cat|dog", "I like cats."))
print(re.search(r"cat|dog", "I love dogs!"))

# Expresión que coincida con las palabras cat o dog. 


print(re.search(r"cat|dog", "I like both dogs and cats."))
print(re.search(r"cat|dog", "I like both cats and dogs."))
# En los dos casos anteriores preguntamos por un match de cat o dog. Al encontrar una coincidencia, mostrará como siempre en match="" el patron encontrado, pero re.search() solo considera la primera ocurrencia. Por eso primero se detecta 

#<re.Match object; span=(7, 10), match='cat'>
# y luego
# <re.Match object; span=(12, 15), match='dog'>

<re.Match object; span=(7, 10), match='cat'>
<re.Match object; span=(7, 10), match='dog'>
<re.Match object; span=(12, 15), match='dog'>
<re.Match object; span=(12, 15), match='cat'>


### Método **re.findall()**:

Encuentra todas las coincidencias del patron de busqueda. En este caso retorna una lista con todas las coincidencias, incluso si se repiten.

In [13]:
print(re.findall(r"cat|dog", "I like both dogs and cats and more dogs."))

['dog', 'cat', 'dog']


# **Calificadores de repetición**

Permiten epandir las busquedas de coincidencia que antes eran para una palabra a una palabra completa. 

```python 
import re 
re.search(r"Py.", "Python")
```
Esto nos retornará 

```shell
<re.Match object; span=(0, 3), match='Pyt'>
```

Por otro lado podemos rastrear textox / cadenas de caracteres más largas usando la repetición

In [None]:
print(re.search(r"Py.*n", "Python"))
# Nos permite recuperar como match la cadena completa. 

# * Toma todos los caracteres que sea posible , trata de recuperar la cadena más extensa. 

# Por lo tanto: 
print(re.search(r"Py.*n", "Python programing"))
# No se límita solo a la palabra python sino que extiende la cadena hasta encontrar la última "n"

# Podriamos decir que ".*" equivale a todo esto: (thon programi) y así puede construir:

"""Py(.*)n = Py(thon programi)n"""

# Los parentesis solo son decorativos en este caso para ver la separación. 

<re.Match object; span=(0, 16), match='Python programin'>

In [None]:
import re
print(re.search(r"Py.*n", "Pygmalion"))
print(re.search(r"Py.*n", "Python Programming"))
print(re.search(r"Py[a-z]*n", "Python Programming"))
print(re.search(r"Py[a-z]*n", "Pyn"))

In [None]:
import re
print(re.search(r"o+l+", "goldfish"))
print(re.search(r"o+l+", "woolly"))
print(re.search(r"o+l+", "boil"))

In [None]:
import re
print(re.search(r"p?each", "To each their own"))
print(re.search(r"p?each", "I like peaches"))