# Tutorial de *'prompting'* efectivos para Expresiones Regulares

## 1. Introducción
¿Alguna vez te has encontrado buscando o manipulando texto de manera repetitiva y tediosa? ¡No busques más!. En este tutorial, combinarás expresiones regulares y el modelo GPT-3.5 en Jupyter Notebook para crear prompts efectivos. Aprenderás a guiar la generación de respuestas del modelo utilizando expresiones regulares, lo que te permitirá construir chatbots y sistemas de procesamiento de texto precisos.

## 2. Expresiones regulares
Una expresión regular, también conocida como **regex**, es una secuencia de caracteres que define un patrón de búsqueda en un texto. 

Para crear, aprender y probar expresiones regulares: [regex](https://regex101.com/)


| Expresión               | Descripción                                                                        |
|:-------------------------|:------------------------------------------------------------------------------------|
| `^`                     | Empata al inicio de la línea.                                                      |
| `$`                     | Empata al fin de la línea.                                                         |
| `.`                     | Empata con cualquier caracter (comodín).                                           |
| `\s`                    | Empata con cualquier caracter que sea espacio en blanco.                            |
| `\S`                    | Empata con un cualquier caracter que no sea espacio en blanco (opuesto de `\s`).   |
| `?`                     | Empata con el elemento anterior cero veces o una vez.                               |
| `*`                     | Empata con el elemento anterior cero o más veces.                                  |
| `*?`                    | Empata con el elemento anterior cero o más veces, pero el menor número de veces posible. |
| `+`                     | Empata con el elemento anterior una o más veces.                                   |
| `+?`                    | Coincide con el elemento anterior una o más veces, pero el menor número de veces posible. |
| `??`                    | Empata con el elemento anterior cero o una vez, pero el menor número de veces posible. |
| `[aeiou]`               | Empata con un solo carácter siempre que ese carácter esté en el conjunto especificado. |
| `[a-z0-9]`              | Se pueden especificar rangos de caracteres con el signo menos. Este ejemplo es un carácter único que debe ser una letra minúscula o un dígito. |




## 3. ¿Qué es un Prompting?
Es la acción de proporcionar una instrucción o un contexto concreto a un modelo de lenguaje como CahtGPT para que genere una respuesta específica. 

### Ejemplo 1. Fechas

### Prompt 1:

**Actúa como un generador de expresiones regulares. Ahora proporciona una expresión regular para capturar las fechas. Ten en cuenta el escape del delimitador.**

---
<span style="color:green;">ChatGPT:
```python
\d{2}\/\d{2}\/\d{4}
```    
<details>  

\d{2}: Esto coincide con exactamente dos dígitos. El \d representa cualquier dígito y {2} indica que debe haber dos dígitos consecutivos.
    
\/: Aquí, \/ representa el carácter de barra diagonal. El \ se utiliza para escapar el carácter especial /, lo que significa que la expresión regular buscará específicamente una barra diagonal.
    
\d{2}: Al igual que antes, esto coincide con dos dígitos consecutivos.
    
\/: Otra barra diagonal escapada.
    
\d{4}: Esto coincide con exactamente cuatro dígitos consecutivos.
</details>   

---

Al revisar nuestra expresión regular para buscar fechas utilizando [regex](https://regex101.com/), notamos que solo identifica fechas en el formato "dd/mm/aaaa". Vamos a mejorar nuestra expresión para hacerla más precisa y abarcativa.

### Prompt 2:

**Genera una expresión regular que coincida con fechas, donde el día y el año pueden consistir en uno o más dígitos. Las fechas pueden estar separadas por guión, punto o barras. Ten en cuenta el escape del delimitador.**

---
<span style="color:green;">ChatGPT:
```python
\d{1,2}[-\/.]\d{1,2}[-\/.]\d+
```    
<details>  

\d{1,2}: Coincide con uno o dos dígitos. Representa el día o el mes.
    
[-\/.]: Utiliza un conjunto de caracteres ([]) para indicar que puede coincidir con uno de los caracteres dentro del conjunto. En este caso, puede coincidir con un guión (-), una barra inclinada hacia adelante (\/, donde la barra invertida se utiliza como carácter de escape) o un punto (.).
    
\d{1,2}: Coincide con uno o dos dígitos. Representa el mes o el día, dependiendo de la posición en la fecha.
    
[-\/.]: Similar al anterior, puede coincidir con un guión, una barra inclinada hacia adelante o un punto.
    
\d+: Coincide con uno o más dígitos. Representa el año.
</details>   

---

¡Te invito a explorar la página [regex](https://regex101.com/)! Estamos usando un patrón que reconoce fechas. Puede identificar días y años con uno o más dígitos, y las fechas pueden estar separadas por guiones, puntos o barras. 

### Ejemplo 2: Nombres y Apellidos

### Prompt 1:  

**Actúa como un generador de expresiones regulares para patrones específicos. Debes proporcionarlas en un formato fácil de copiar y pegar en un editor o lenguaje compatible. Ahora, proporciona una expresión regular para extraer nombres y apellidos.**

---
<span style="color:green;">ChatGPT:
```python
[A-Z][a-z]+\s[A-Z][a-z]+
```    
<details>    
Esta expresión regular busca coincidencias de la siguiente manera:

[A-Z]: Busca una letra mayúscula al principio de la palabra.

[a-z]+: Busca una o más letras minúsculas después de la primera letra mayúscula para capturar el nombre.

\s: Busca un espacio entre el nombre y el apellido.

[A-Z]: Busca otra letra mayúscula para el comienzo del apellido.

[a-z]+: Busca una o más letras minúsculas después de la primera letra mayúscula del apellido.
</details> 
    
---

Al revisar nuestra expresión regular para buscar nombres como **'Juan Perez'** y **'José Ramirez'** utilizando [regex](https://regex101.com/), notamos que no muestra los nombres que llevan tilde. Para mejorar esto, vamos a fortalecer nuestra instrucción para que sea más efectiva.

### Prompt 2:

**Proporciona una expresión regular para extraer nombres y apellidos. Ten en cuenta las tildes, la 'ñ' y la 'ü'. No necesariamente debe empatar al inicio de la linea.**

---
<span style="color:green;">ChatGPT:
```python
[\p{L}áéíóúüñÁÉÍÓÚÜÑ']+ [\p{L}áéíóúüñÁÉÍÓÚÜÑ']+
```  
---

¡Mira en la página [regex](https://regex101.com/)! El patrón incluye todos los nombres, hasta los con ñ, tildes y diéresis. ¡Es genial cómo funciona con caracteres especiales en los nombres!

Ahora, vamos a usar un archivo de Excel como nuestra base de datos para probar cómo nuestro patrón encuentra nombres y apellidos de la mejor manera.

### Prompt 3:

**Escribe un código en python para leer un archivo excel llamado 'data'. Proporciona un código que utilice expresiones regulares para extraer solo los apellidos de la columna Nombre_Completo. Este código debe considerar la presencia de tildes, la letra 'ñ' y la 'Ü'. Ten en cuenta el escape del delimitador.**

---
<span style="color:green;">ChatGPT:

In [None]:
import pandas as pd
import re

# Leer el archivo Excel
archivo_excel = 'data.xlsx'  # Reemplaza 'data.xlsx' con el nombre de tu archivo Excel
datos = pd.read_excel(archivo_excel)

# Función para extraer apellidos con expresiones regulares
def extraer_apellidos(texto):
    patron = r'[A-Za-zÁÉÍÓÚÜÑáéíóúüñ]+\s([A-Za-zÁÉÍÓÚÜÑáéíóúüñ]+)$'
    apellidos = re.findall(patron, texto)
    return apellidos

# Extraer apellidos de la columna 'Nombre_Completo'
nombres_completos = datos['Nombre_Completo'].astype(str)
apellidos_extraidos = nombres_completos.apply(extraer_apellidos)

# Imprimir apellidos extraídos
print("Los apellidos extraídos son:")
for apellidos in apellidos_extraidos:
    print(apellidos)

---

### Ejemplo 3: Rutas de directorio

### Prompt 1:

**Actúa como un generador de expresiones regulares. Ahora proporciona una expresión regular para capturar rutas de directorio válidas en un sistema de archivos.**

---
<span style="color:green;">ChatGPT:
```python
^\/?([\w.-]+\/?)+$
```    
<details>  

^: Coincide con el inicio de la cadena.

\/?: Corresponde a una barra diagonal (/) opcional (?). Esta barra es escapada (\/) para que se interprete literalmente.

([\w.-]+\/?)+: Este grupo captura uno o más nombres de directorios.

$: Coincide con el final de la cadena.
</details>   


Al revisar nuestra expresión regular para encontrar rutas como D:\Users\ana\file.pdf utilizando [regex](https://regex101.com/), notamos que no reconoce las rutas de directorio en Windows. Para mejorar esto, vamos a reforzar nuestra instrucción para que funcione de manera más efectiva.

---

### Prompt 2:

**Proporciona una expresion regular para poder extraer rutas de directorio en sistemas Windows y Unix, que se encuentre en un solo patrón. Ten en cuenta el escape en el delimitador.**

---
<span style="color:green;">ChatGPT:
```python
^((?:\/|\w:)[\\\/\w.-]+)*[\\\/\w.-]+$
```    
<details>  

- Comienza con el separador de ruta de Unix / o una letra de unidad seguida de : en el caso de Windows (como C: o D:).
    
- Seguido por uno o más grupos de caracteres que pueden incluir barras diagonales /, barras invertidas \, caracteres alfanuméricos (\w), puntos (.) y guiones (-), que representan nombres de archivos o directorios.

- Termina con un grupo final de caracteres similar al grupo anterior, permitiendo una ruta final válida.
</details>   

---

¡Echa un vistazo a la página [regex](https://regex101.com/)! El patrón que estamos usando incluye las rutas de directorio tanto en sistemas Windows como Unix. Vamos a utilizar el mismo archivo de Excel como nuestra base de datos para ver cómo nuestro patrón encuentra ambas rutas.

### Prompt 3:

**Escribe un código en python para leer un archivo excel llamado 'data'. Proporciona un código que utilice expresiones regulares para poder extraer rutas de directorio en sistemas Windows y Unix, debe coincidir con rutas que contengan barras invertidas, como /usr/local/bin/script.sh y D:\Users\ana\file.pdf. Debes tener en cuenta el escape del delimitador..**

---
<span style="color:green;">ChatGPT:

In [None]:
import pandas as pd
import re

# Leer el archivo Excel
data = pd.read_excel('data.xlsx')  # Reemplaza 'data.xlsx' con el nombre real de tu archivo Excel

# Expresión regular para encontrar rutas de directorio en sistemas Windows y Unix
regex = r'(?:[A-Za-z]:\\(?:[\w\s-]+\\)*[\w\s-]+\.\w+)|(?:\/(?:[\w\s-]+\/)*[\w\s-]+\.\w+)'

# Función para encontrar coincidencias con la expresión regular en una cadena
def encontrar_rutas(cadena):
    return re.findall(regex, cadena)

# Iterar sobre las celdas del archivo Excel
print("Las rutas de directorio son:\n")
for columna in data.columns:
    for indice, valor in data[columna].items():
        if isinstance(valor, str):  # Verificar si el valor es una cadena
            rutas = encontrar_rutas(valor)
            if rutas:
                print(rutas)


---

En este recorrido desde lo básico hasta lo avanzado en expresiones regulares, has construido un camino sólido para explorar y dominar el arte de buscar patrones en textos. ¡Recuerda, cada pequeño paso cuenta!. ♥

---