# Tutorial de prompting efectivos para expresiones regulares con modelos de lenguaje extensos (MLL)

### Concepto
Las expresiones regulares, también conocidas como regex o regexp, son patrones de búsqueda utilizados para encontrar, validar o manipular cadenas de texto de manera eficiente. En Python, el módulo 're' proporciona funciones y métodos para trabajar con expresiones regulares.

### ¿Por qué usar Expresiones Regulares?
Permiten realizar búsquedas, extracciones y validaciones eficientes en cadenas de texto. Son útiles para manipular y transformar texto, analizar archivos de log, realizar web scraping, validar formularios y automatizar tareas de edición de texto. Con su capacidad para definir patrones específicos, las expresiones regulares facilitan la manipulación y análisis de datos de manera precisa y eficaz en una variedad de aplicaciones de programación y procesamiento de información.

### Modelos de lenguaje extenso (MLL)
Un modelo de lenguaje extenso se refiere a un sistema de inteligencia artificial diseñado para comprender y generar lenguaje humano de manera profunda y versátil.
Estos modelos están entrenados con grandes cantidades de datos textuales para entender el contexto, la gramática, el significado y la estructura del lenguaje, para simplificar, este tipo de inteligencia artificial utiliza un banco de datos ya existente para crear algo nuevo o entender algo y explicarlo.

### ¿Qué es el prompting con modelos de lenguaje extenso?
Para comenzar debemos saber que un promtp en este contexto de los MLL se refiere a una instrucción o texto inicial proporcionado al lenguaje para guiar y orientar la generación de respuestas o texto coherente. Puede ser una frase, una pregunta o incluso un párrafo completo que establece el contexto o define la tarea que se espera que el sistema de IA cumpla.
El propósito principal de un prompt es influir en la salida generada por el modelo, inclusive hay páginas que tratan sobre prompts en varios modelos de lenguaje extenso como [Foro prompt](https://foroprompt.com/).

### Prompts para expresiones regulares con ChatGPT (GPT 3.5)
Para este tutorial usaremos el modelo de lenguaje extenso de OpenAI, [ChatGPT](https://chat.openai.com/), representando las interacciones del usuario y la IA.


### Sintaxis básica

El prompt que usaremos para la sintaxis básica:
```
User: Dame la principal sintaxis de expresiones regulares, expresadas por símbolos sin mencionar el tipo, con su respectivo símbolo y función.
  
IA: ¡Claro! Aquí tienes una lista de símbolos y sus funciones principales en expresiones regulares:

    1. "." - Punto
    - Función: Coincide con cualquier carácter, excepto saltos de línea.
    
    2. "^" - Circunflejo
    - Función: Coincide con el inicio de una cadena.

    3. "$" - Signo de dólar
    - Función: Coincide con el final de una cadena.

    4. "*" - Asterisco
    - Función: Coincide con cero o más ocurrencias del carácter o grupo anterior.

    5. "+" - Signo de más
    - Función: Coincide con una o más ocurrencias del carácter o grupo anterior.

    6. "?" - Signo de interrogación
    - Función: Coincide con cero o una ocurrencia del carácter o grupo anterior.

    7. "[]" - Corchetes
    - Función: Define un conjunto de caracteres permitidos.

    8. "()" - Paréntesis
    Función: Agrupa caracteres para aplicar operadores como *, +, ? o para definir subpatrones.

    9. "|" - Barra vertical
    Función: Se utiliza para realizar una coincidencia tipo "o" entre patrones.

    10. "\" - Barra invertida
    Función: Escapa caracteres especiales o introduce secuencias de escape para representar caracteres especiales como \d, \w, etc.

    Estos son algunos de los símbolos más fundamentales en expresiones regulares, y cada uno tiene su propia función para definir patrones de búsqueda en texto.

```

Dicho sea de paso, también podremos decirle a la IA que nos haga una tabla de eso, usando el prompt:

```
User: En una tabla dame la principal sintaxis de expresiones regulares, expresadas por símbolos sin mencionar el tipo, con su respectivo símbolo y función.
IA: Claro, aquí te presento una tabla con la principal sintaxis de expresiones regulares, sus símbolos y funciones:
```

| Símbolo | Función                                        |
|---------|------------------------------------------------|
| .       | Coincide con cualquier carácter excepto salto de línea |
| ^       | Coincide al inicio de una cadena              |
| $       | Coincide al final de una cadena               |
| *       | Coincide con cero o más repeticiones del elemento anterior |
| +       | Coincide con una o más repeticiones del elemento anterior |
| ?       | Coincide con cero o una repetición del elemento anterior |
| []      | Coincide con cualquier carácter dentro de los corchetes |
| [^]     | Coincide con cualquier carácter que no esté dentro de los corchetes |
| ()      | Agrupa expresiones y recuerda la coincidencia    |
| \|      | Alterna entre diferentes opciones de coincidencia |
| \       | Escapa el significado especial de un carácter   |



### Expresiones regulares con un archivo de texto
Para este tutorial, haremos uso de un archivo de texto con texto variado para poner en práctica expresiones regulares:

In [1]:
# Leyendo el archivo de texto
fichero=open("retext.txt","r", encoding="utf-8")
leer=fichero.read()
fichero.close()
print(leer)

Este es un texto variado con múltiples tipos de datos para practicar expresiones regulares:

Conoce tu futura universidad junto a tus familiares y amigos
disfruta esta gran experiencia molinera en la mejor universidad del Perú en Ciencias Agrícolas.

Más información: https://admision.lamolina.edu.pe/talleres
Informes WhatsApp: 937413951 / 978585632

Direcciones de correo electrónico:
usuario1@example.com, correo.123@dominio.co, correo@empresa.org,
otrocorreo@email.com, usuario_sin_arroba.com, correo_erroneo@.com,
email_valido@subdominio.net, direccion@dominio.com.mx,
correo@dominio.invalido, correo_con_simbolos@dominio.co.uk,
correo123@email.com, ejemplodecorreo@gmail.com

Números de teléfono sin guión:
943854789, 945384284, 934857643, 943284768, 953287366

Números de teléfono con guión:
 

URLs:
https://www.facebook.com, http://youtube.com, https://discord.com/
https://chat.openai.com/, https://visualstudio.microsoft.com/es/
https://open.spotify.com/intl-es

Fechas:
15/03/2023, 2023-0

### Prompts para generar expresiones regulares y hallar coincidencias

Usaremos el siguiente prompt para configurar la IA

```
User: Quiero que actúes como un generador de expresiones regulares. Su función es generar expresiones regulares que coincidan con patrones específicos en el texto. Debe proporcionar las expresiones regulares en un formato que se pueda copiar y pegar fácilmente en un editor de texto o lenguaje de programación habilitado para expresiones regulares. No escriba explicaciones o ejemplos de cómo funcionan las expresiones regulares; simplemente proporcione solo las expresiones regulares en sí.

IA: ¡Por supuesto! ¿Qué patrones específicos estás buscando coincidir en el texto?
```
Una vez configurada la IA está lista para generar expresiones regulares para buscar coincidencias.

- Para buscar coincidencias con correos electrónicos:

  ```
  User: Coincidencias con correos electrónicos.

  IA: Claro, aquí tienes una expresión regular que coincide con direcciones de correo electrónico:
      [A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}

  ```


In [13]:
#Implementando la expresión regular generada para coincidir con correos en código python:
import re

with open("retext.txt", "r", encoding="utf-8") as archivotexto:
    texto = archivotexto.read()
    patron_email = r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}"
    emails_encontrados = re.findall(patron_email, texto)
    print(emails_encontrados)

['usuario1@example.com', 'correo.123@dominio.co', 'correo@empresa.org', 'otrocorreo@email.com', 'email_valido@subdominio.net', 'direccion@dominio.com.mx', 'correo@dominio.invalido', 'correo_con_simbolos@dominio.co.uk', 'correo123@email.com', 'ejemplodecorreo@gmail.com']


In [25]:
#Contando la cantidad de correos encontrados:
import re
text = open("retext.txt", "r", encoding="utf-8")
i = 0
for linea in text:
    linea = linea.rstrip()
    x = re.findall("[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}",linea)
    if len(x)>0:
        i += len(x) #i = i + len(x)
print(i)
text.close()


10


- Buscando enlaces de páginas:

  ```
  User: Quiero encontrar enlaces URL.

  IA: Claro, aquí tienes una expresión regular para encontrar enlaces URL en un texto:
  
      \bhttps?:\/\/\S+\b
  
      Esta expresión regular coincide con enlaces URL que comienzan con "http://" o "https://" seguido de uno o más caracteres que no sean espacios en blanco hasta encontrar un límite de palabra.

  ```

In [21]:
#Aplicación en python
import re

with open("retext.txt", "r", encoding="utf-8") as archivotexto:
    texto = archivotexto.read()
    patron_email = r"\bhttps?:\/\/\S+\b"
    emails_encontrados = re.findall(patron_email, texto)
    print(emails_encontrados)

['https://admision.lamolina.edu.pe/talleres', 'https://www.facebook.com', 'http://youtube.com', 'https://discord.com', 'https://chat.openai.com', 'https://visualstudio.microsoft.com/es', 'https://open.spotify.com/intl-es']


In [38]:
#Conteo para las coincidencias
import re

with open("retext.txt", "r", encoding="utf-8") as texto:
    texto = texto.read()

patronre = r"\bhttps?:\/\/\S+\b"

coincidencias = re.findall(patronre, texto)

total_coincidencias = len(coincidencias)
print(total_coincidencias)


7
