# Introducción a Expresiones Regulares en Python con Jupyter Notebook

 ¿Qué son las expresiones regulares?
 Las expresiones regulares (regex) son patrones de búsqueda utilizados para coincidir con cadenas de texto.
 Son extremadamente poderosas para buscar, validar y manipular texto en Python y otros lenguajes.
 Entonces si queremos aprender usar expresiones regulares empezemos con lo más basico como buscar palabras en especificas, numeros de telefono, DNI, o ciertos atributos que nos interese, para luego aplicarlo en la practica con un caso en especifico y trabajar en ello. Vamos primero por el porque usarlo. 😎

 ¿Por qué usar expresiones regulares?
 - Búsqueda y filtrado eficiente de patrones en grandes cantidades de texto.
 - Validación de formatos de cadenas.
 - Manipulación avanzada de texto.

 Ejemplos de casos de uso:
 - Validar direcciones de correo electrónico.
 - Buscar y reemplazar patrones específicos en un documento.
 - Extraer información de datos estructurados.



 Sintaxis Básica de Expresiones Regulares

 En las expresiones regulares, algunos caracteres tienen significados especiales:
 - . (punto): Coincide con cualquier carácter excepto nueva línea.
 - ^: Coincide con el inicio de la cadena.
 - $: Coincide con el final de la cadena.
 - \d: Coincide con cualquier dígito (equivalente a [0-9]).
 - \w: Coincide con cualquier carácter alfanumérico (equivalente a [a-zA-Z0-9]).  
 
 Así tendremos muchos más carateres con diferente significado, vamos a explicar algunos de estos con ejemplos.😀  
 


![Texto alternativo](artículo-15-octubre.jpg)

Preguntemosle al chat gpt que patrones conoce  


![Texto alternativo](1_py.jpg)

Ejemplos:
 1. El patrón \d{3} coincidirá con tres dígitos consecutivos.
 

In [4]:
import re

texto = "12345 678 90"
coincidencias = re.findall(r"\d{3}", texto)
print(coincidencias)  # Esto buscará grupos de tres dígitos consecutivos en el texto


['123', '678']


![Texto alternativo](2_py.jpg)

2. "." (Punto): Coincide con cualquier carácter, excepto un salto de línea.


In [11]:
texto = "Hola mundo!"
coincidencias = re.findall(".", texto)
print(coincidencias)  # Esto imprimirá cada carácter por separado


['H', 'o', 'l', 'a', ' ', 'm', 'u', 'n', 'd', 'o', '!']


In [20]:
# tambien sirve si queremos buscar una palabra de esta manera
texto = "Hola mundo, buenos dias mundo!"
coincidencias = re.findall(".undo", texto)#solo reemplazando la primera letra de la palabra con un punto
print(coincidencias)  # Esto imprimirá la palabra mundo cada vez que se use

['mundo', 'mundo']


3. "^" (Acento circunflejo): Indica que la coincidencia debe ocurrir al principio de la cadena

In [23]:
texto = "Python es genial"
coincidencia = re.findall("^Python", texto)
if coincidencia:
    print("Encontrado al principio")
else:
    print("No encontrado al principio")
cantidad = len(coincidencia)
print(f"La palabra 'Python' aparece {cantidad} veces al principio de la cadena.")

Encontrado al principio
La palabra 'Python' aparece 1 veces al principio de la cadena.


4. "$" Indica que la coincidencia debe ocurrir al final de la cadena.

In [7]:

texto = "Python es genial"
coincidencias = re.findall(r"genial$", texto)

cantidad = len(coincidencias)
print(f"La palabra 'genial' aparece {cantidad} veces al final de la cadena.")



La palabra 'genial' aparece 1 veces al final de la cadena.


![Texto alternativo](3_py.jpg)

5. Ahora vamos con algo un poco mas complejo 😉
Si queremos los numeros de telefono de un texto y ahorrarnos tiempo podemos hacer esto.


In [30]:
import re

texto = "Mi número es 123-456-7890 y el de mi amigo es 985 895 235"

patron_telefono = r"\b(?:\d{3}[-.]?\d{3}[-.]?\d{4}|\d{3} ?\d{3} ?\d{3})\b"

numeros_telefono = re.findall(patron_telefono, texto)
print(numeros_telefono)



['123-456-7890', '985 895 235']


![Texto alternativo](4_py.jpg)

En este ejemplo, el patrón **\b(?:\d{3}[-.]?\d{3}[-.]?\d{4}|\d{3} ?\d{3} ?\d{3})\b** busca números que tengan un formato común de teléfono, como 123-456-7890, 985 235, entre otros. Aquí está cómo funciona el patrón:  

**\b:** Coincide con límites de palabras para asegurarse de que coincida con números enteros.  

**\d{3}:** Busca tres dígitos.  

**[-.]?:** Permite un guion o un punto como separador, pero el signo de interrogación hace que esta parte sea opcional.  

**\d{3}:** Busca otros tres dígitos.  

**[-.]?:** Nuevamente, un guion o un punto como separador (opcional).  

**\d{3}:** Busca cuatro dígitos al final.  

**\b:** Otra coincidencia de límite de palabra.  

Al ejecutar este código, findall() devolverá una lista con todos los números de teléfono encontrados en el texto.  

Recuerda que este es un patrón genérico y puede no abarcar todos los formatos de números de teléfono. Si estás buscando números de teléfono en un formato específico o para una región determinada, es posible que necesites ajustar el patrón de la expresión regular.

**VAMOS CON ALGUNOS EJEMPLOS MÁS QUE PRACTICANDO SE APRENDE** 😄

## Busqueda simple

In [19]:
# Búsqueda Simple con Expresiones Regulares

import re

# Texto de ejemplo
texto = "La temperatura actual es 25°C."

# Buscar un número en el texto
patron_numero = re.search(r'\d+', texto)

if patron_numero:
    numero_encontrado = patron_numero.group()
    print(f"Número encontrado: {numero_encontrado}")
else:
    print("No se encontró ningún número.")


Número encontrado: 25


## Coincidencias multiples

In [20]:
# Coincidencias Múltiples con Expresiones Regulares

# Texto de ejemplo
texto = "Los números en el conjunto son: 123, 456, 789."

# Buscar todos los números en el texto
patron_numeros = re.findall(r'\d+', texto)

if patron_numeros:
    print(f"Números encontrados: {patron_numeros}")
else:
    print("No se encontraron números.")


Números encontrados: ['123', '456', '789']


# Reemplazo en subgrupos

In [22]:
# Reemplazo y Subgrupos con Expresiones Regulares

# Texto de ejemplo
texto = "Fecha de nacimiento: 01/05/1990."

# Reemplazar el formato de fecha
texto_modificado = re.sub(r'(\d{2})/(\d{2})/(\d{4})', r'\2-\1-\3', texto)

print("Texto original:" ,texto )
print("Texto modificado:", texto_modificado)


Texto original: Fecha de nacimiento: 01/05/1990.
Texto modificado: Fecha de nacimiento: 05-01-1990.


**Y si ahora nos dan un texto y nos piden que realizemos una busqueda del numero de las tarjetas de debito o credito que estan presentes para realizar un estudio estadistico del cuantas personas usan tarjeta de credito o debito en cierto periodo de tiempo en el banco, con fines de realizar un modelo de regresion, pues para ahorrar tiempo y no contar de uno en uno, usaremos expresiones regulares**


**EMPECEMOS**😎

## caso aplicativo
Para este caso vamos a utilizar 'prompting' efectivos para expresiones regulares usando chatgpt.

Leemos nuestro txt

In [69]:
fichero = open('Banco-Interbank.txt','r')
banco = fichero.readlines() 
fichero.close()



In [66]:
# Convertir la lista a un string separado por espacios
cadena = ' '.join(banco)




Luego lo mas importante es especificar nuestro patron de busqueda

In [67]:
# Patrón para encontrar números de tarjetas de crédito con el formato especificado
patron_tarjetas = r"\b\d{4}-\d{4}-\d{4}\b"

# Buscar coincidencias de números de tarjetas de crédito en el texto
tarjetas_encontradas = re.findall(patron_tarjetas, cadena)

# Mostrar los números de tarjetas de crédito encontrados
for tarjeta in tarjetas_encontradas:
    print(tarjeta)

# Contar la cantidad de tarjetas de crédito encontradas
cantidad_tarjetas = len(tarjetas_encontradas)
print(f"\nSe encontraron {cantidad_tarjetas} números de tarjetas de crédito en el texto.")

3815-7091-8657
8166-3342-3172
2929-1055-8233
9275-7955-5730
4126-2172-5648
8383-1992-6501
5768-5205-8473
3444-1058-2618
6409-7148-8417
6079-2665-6580
7402-5408-1202
3594-8382-5515
2129-8780-7420
6840-2599-3652
7270-9066-7819
9438-5442-4676
7624-3295-7607
9012-1354-8249
7747-7040-2966
4562-1614-4370
5324-4635-1338
8482-8186-4120
5126-5141-8935
1409-9037-9471
7865-4572-9526
1867-8103-6285
6024-3009-6422
5502-3678-7120
9070-8169-9773
1776-6182-3183
4919-1739-3343
7032-6668-7080
7992-8278-1755
7996-9069-9169
7234-9068-2912
5599-7785-9101
1004-1611-2011
6091-3847-3997
2946-9430-1830
4227-4679-9053
8419-6884-2413
6203-1964-6261
8599-5128-5103
2087-6872-1882
2111-3643-7597
9993-7626-4772
2103-2893-8524
8548-7174-2336
7475-7724-9792
3146-9553-5345
6634-5162-8548
4481-6324-6600
1093-3398-8953
8131-6629-8692
9206-9898-8663
1203-1825-7161
1278-3588-6492
5564-1047-2145
2329-5050-3498
7632-9413-5103
4164-2834-6730
1269-7450-2743
7139-3065-5600
6829-1859-1985
3426-8187-8092

Se encontraron 65 número

![Texto alternativo](5_py.jpg)

El chat gtp nos ayudo para obtener el patron que tienen estas tarjetas de credito asi aplicarlo, luego obtenemos los numeros de las tarjetas de credito o debito y la cantidad de clientes que estan presentes en el texto para tener una idea de cuantos clientes adquieren tarjetas en ese banco. Luego tambien se puede reconocer a cada cliente solo con su tarjeta de credito. Gracias 😏

## CASO APLICATIVO 2:
Tendremos un ejercicios adicional en la cual haremos uso del promptings efectivos para las expresiones regulares y haremos uso del chat GPT

In [16]:
import re

def validar_correo_electronico(correo):
    # Expresión regular para validar direcciones de correo electrónico
    patron = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

    if re.match(patron, correo):
        print(f"La dirección de correo electrónico '{correo}' es válida.")
    else:
        print(f"La dirección de correo electrónico '{correo}' no es válida.")

# Ejemplo de uso:
correo_ejemplo = "...@lamolina.edu.pe"
validar_correo_electronico(correo_ejemplo)


La dirección de correo electrónico '...@lamolina.edu.pe' es válida.


![Texto alternativo](GPT.png)

In [1]:
import re

def encontrar_correos_en_archivo(nombre_archivo):
    # Expresión regular para validar direcciones de correo electrónico
    patron_correo = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

    with open(nombre_archivo, 'r') as archivo:
        contenido = archivo.read()
        correos_encontrados = re.findall(patron_correo, contenido)

    return correos_encontrados

# Reemplaza 'nombre_del_archivo.txt' con el nombre de tu archivo
archivo_ejemplo = 'Listado.txt'
correos_encontrados = encontrar_correos_en_archivo(archivo_ejemplo)

# Imprime los correos electrónicos encontrados
print("Correos electrónicos encontrados:")
for correo in correos_encontrados:
    print(correo)

Correos electrónicos encontrados:
hildahormazabal@hotmail.com
miriamsian@hotmail.com
jacob_1770@hotmail.com
lpaz131@gmail.com
mifcat@hotmail.com
marlagonzale@hotmail.com
mnnatsop_sede@yahoo.es
mdlopez24@hotmail.com
despinozapatel@hotmail.com
info@wfmh.com
monikaniederle@hotmail.com
erica_lanas@yahoo.es
marisolantigua@hotmail.com
adr1054@gmail.com
cosecodeni@yahoo.es
amaliabr@hotmail.com
peliptiu@gmail.com
geovaldona@gmail.com
jmerin.reig@gmail.com
charomendiola@hotmail.com
despujoljv@hotmail.com
julio_valle_iscar@hotmail.com
mnnatsop_sede@yahoo.es
lola_40@hotmail.com
irmandrea53@hotmail.com
alejuarez_316@hotmail.com
maritzadelepiani@hotmail.com
mreyesherrera@gmail.com
ivovega@yahoo.com
ivan.salinasbarrios@gmail.com
ioannys_15@hotmail.com
jorgeenriqueescobar@latinmail.com
marvinrabanales@hotmail.com
rfsepulveda@gmail.com
karinajjm@gmail.com
blanri@hotmail.com
marcofpn@hotmail.com
marcelinobassett@hotmail.com
lauraquirogavalpa1985@hotmail.com
joselyn-monsalve@lycos.es
karandare@gmail.com