<a href="https://colab.research.google.com/github/Alexis20723/computo_nube/blob/main/REGEX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Nombre: Jessica Méndez

Materia: PLN y Visión Computacional

07 de diciembre de 2023


Expresiones Regulares (Regex): Una Guía Básica

Las expresiones regulares, comúnmente conocidas como regex o regexp, son patrones de búsqueda utilizados para realizar búsquedas y manipulación de texto de manera eficiente. Estas secuencias de caracteres permiten especificar un conjunto de reglas que definen un patrón de coincidencia dentro de una cadena de texto. Son una herramienta poderosa y versátil utilizada en programación, procesamiento de texto y manipulación de datos.

Principales Reglas de Uso:

- Símbolos Literales: Los caracteres simples en una expresión regular coinciden literalmente con ellos mismos en el texto. Por ejemplo, la expresión regular gato buscará la palabra "gato" en un texto.

- Cuantificadores: Los cuantificadores especifican la cantidad de ocurrencias de un elemento. Por ejemplo, a{3} coincidirá con exactamente tres letras "a". Además, a+ coincidirá con una o más letras "a".

- Caracteres Especiales: Algunos caracteres tienen significados especiales en expresiones regulares. Por ejemplo, el punto (.) coincide con cualquier carácter, y el asterisco (*) coincide con cero o más ocurrencias del elemento anterior.

- Conjuntos de Caracteres: Se pueden definir conjuntos de caracteres utilizando corchetes ([]). Por ejemplo, [aeiou] coincidirá con cualquier vocal.

- Negación de Conjuntos: Un acento circunflejo (^) dentro de corchetes negará el conjunto. Por ejemplo, [^0-9] coincidirá con cualquier carácter que no sea un dígito.

- Anclajes: Los anclajes indican la posición en la que debe ocurrir un patrón. Por ejemplo, ^ representa el inicio de una línea, y $ representa el final de una línea.

- Grupos y Captura: Los paréntesis (()) se utilizan para agrupar elementos y formar subpatrones. Además, permiten la captura de la parte coincidente para su posterior uso.

- Caracteres de Escape: Algunos caracteres tienen significados especiales en expresiones regulares. Si deseas buscar estos caracteres literalmente, debes escaparlos con una barra invertida (\).


Estas reglas son solo el punto de partida para entender las expresiones regulares. A medida que te familiarices con ellas, descubrirás su potencial para realizar búsquedas y manipulaciones de texto de manera eficiente y precisa. Aprender a utilizar expresiones regulares es una habilidad valiosa que mejora la capacidad de procesamiento y manipulación de datos en el ámbito de la programación y más allá.

#Ejercicios

In [None]:
import re

# Ejercicio 1
# Encuentra todas las coincidencias de "gato" en el texto.
texto = "El gato está en el tejado. El gato es un animal goméstico."
resultado = re.findall(r"gato", texto)
print("Ejercicio 1:", resultado)


Ejercicio 1: ['gato', 'gato']


In [None]:

# Ejercicio 2
# Encuentra todas las palabras que comienzan con "g" en el texto.
resultado = re.findall(r'\bg\w*', texto)
print("Ejercicio 2:", resultado)



Ejercicio 2: ['gato', 'gato', 'goméstico']


In [None]:


# Ejercicio 3
# Reemplaza todas las direcciones de correo electrónico en el texto con "email@dominio.com".
texto_con_correos = "Mi dirección de correo es user1@example.com y user2@gmail.com"
resultado = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', 'email@dominio.com', texto_con_correos)
print("Ejercicio 50:", resultado)

Ejercicio 50: Mi dirección de correo es email@dominio.com y email@dominio.com


In [None]:
# Ejercicio 4
# Encuentra todas las palabras que terminan con "o" en el texto.
texto = "El gato está en el tejado. El perro está en el suelo."
resultado = re.findall(r'\b\w*o\b', texto)
print("Ejercicio 4:", resultado)

Ejercicio 4: ['gato', 'tejado', 'perro', 'suelo']


In [None]:


# Ejercicio 5
# Encuentra todas las coincidencias de números (dígitos) en el texto.
texto = "La casa tiene 3 habitaciones y el precio es $200,000."
resultado = re.findall(r'\d+', texto)
print("Ejercicio 5:", resultado)


Ejercicio 5: ['3', '200', '000']


In [None]:
# Ejercicio 6
# Encuentra todas las líneas que comienzan con "Hola".
texto = "Hola, ¿cómo estás?\nHola, me llamo Juan.\nAdiós por ahora."
resultado = re.findall(r'^Hola.*', texto, flags=re.MULTILINE)
print("Ejercicio 6:", resultado)

Ejercicio 6: ['Hola, ¿cómo estás?', 'Hola, me llamo Juan.']


In [None]:


# Ejercicio 7
# Encuentra todas las palabras que tienen al menos tres vocales en el texto.
texto = "Python es un lenguaje de programación poderoso."
resultado = re.findall(r'\b(?:[aeiouAEIOU][^aeiouAEIOU]*){3,}\b', texto)
print("Ejercicio 7:", resultado)

Ejercicio 7: ['es un lenguaje de programación poderoso']


In [None]:

# Ejercicio 8
# Extrae el nombre de usuario y dominio de las direcciones de correo electrónico.
texto = "Mis correos son user1@example.com y user2@gmail.com"
resultado = re.findall(r'(\w+)@(\w+\.\w+)', texto)
print("Ejercicio 8:", resultado)

Ejercicio 8: [('user1', 'example.com'), ('user2', 'gmail.com')]


In [None]:
# Ejercicio 9
# Encuentra todas las palabras que contienen al menos dos letras "a".
texto = "La manzana es roja y el plátano es amarillo."
resultado = re.findall(r'\b(?:[^a]*a[^a]*){2,}\b', texto)
print("Ejercicio 9:", resultado)


Ejercicio 9: ['La manzana es roja y el plátano es amarillo']


In [None]:

# Ejercicio 10
# Encuentra todas las fechas en formato dd/mm/aaaa en el texto.
texto = "Hoy es 05/12/2023 y mañana será 06/12/2023."
resultado = re.findall(r'\b\d{2}/\d{2}/\d{4}\b', texto)
print("Ejercicio 10:", resultado)



Ejercicio 10: ['05/12/2023', '06/12/2023']


In [None]:
# Ejercicio 11
# Encuentra todas las palabras que comienzan y terminan con la misma letra en el texto.
texto = "oso casa pera elefante nivel"
resultado = re.findall(r'\b(\w)\w*\1\b', texto)
print("Ejercicio 11:", resultado)



Ejercicio 11: ['o', 'e']


In [None]:
# Ejercicio 12
# Encuentra todas las oraciones que terminan con un signo de exclamación en el texto.
texto = "¡Hola! ¿Cómo estás? ¡Esto es emocionante!"
resultado = re.findall(r'.*!\b', texto)
print("Ejercicio 12:", resultado)



Ejercicio 12: []


In [None]:
# Ejercicio 13
# Reemplaza todas las ocurrencias de "Python" con "JavaScript" en el texto.
texto = "Python es un lenguaje poderoso. Me encanta programar en Python."
resultado = re.sub(r'Python', 'JavaScript', texto)
print("Ejercicio 13:", resultado)

Ejercicio 13: JavaScript es un lenguaje poderoso. Me encanta programar en JavaScript.


In [None]:
# Ejercicio 14
# Encuentra todas las palabras que tienen al menos una letra seguida por dos números.
texto = "abc123 x1y2z3 45a67"
resultado = re.findall(r'\b\w*[a-zA-Z]\d{2}\w*\b', texto)
print("Ejercicio 14:", resultado)


Ejercicio 14: ['abc123', '45a67']


In [None]:

# Ejercicio 15
# Encuentra todas las líneas que contienen la palabra "información" (sin importar mayúsculas o minúsculas).
texto = "La información es clave.\nRecuerda revisar la Información importante."
resultado = re.findall(r'(?i)información', texto)
print("Ejercicio 15:", resultado)


Ejercicio 15: ['información', 'Información']


In [None]:

# Ejercicio 16
# Encuentra todas las palabras que empiezan con "b" pero no terminan con "o".
texto = "barco bolsa libro plato bote"
resultado = re.findall(r'\bb[^o\s]*\b', texto)
print("Ejercicio 16:", resultado)


Ejercicio 16: []


In [None]:

# Ejercicio 17
# Encuentra todas las palabras que tienen al menos una consonante repetida (como "cc" en "coco").
texto = "coco pera manzana barco"
resultado = re.findall(r'\b\w*([bcdfghjklmnpqrstvwxyz])\1\w*\b', texto)
print("Ejercicio 17:", resultado)


Ejercicio 17: []


In [None]:

# Ejercicio 18
# Encuentra todas las palabras que contienen al menos una vocal y al menos un número.
texto = "apple23 45orange 6pear"
resultado = re.findall(r'\b\w*[aeiou]\d+\w*\b', texto)
print("Ejercicio 18:", resultado)


Ejercicio 18: ['apple23']


In [None]:

# Ejercicio 19
# Encuentra todas las líneas que comienzan con una letra mayúscula en el texto.
texto = "Hola Mundo.\nPython es genial.\nel cielo es azul."
resultado = re.findall(r'^[A-Z].*', texto, flags=re.MULTILINE)
print("Ejercicio 19:", resultado)


Ejercicio 19: ['Hola Mundo.', 'Python es genial.']


In [None]:

# Ejercicio 20
# Encuentra todas las palabras que contienen solo letras mayúsculas.
texto = "Python ES un Lenguaje de Programación."
resultado = re.findall(r'\b[A-Z]+\b', texto)
print("Ejercicio 20:", resultado)

Ejercicio 20: ['ES']


#Desafío 1:
Objetivo: Encuentra todas las direcciones de correo electrónico en el siguiente texto.

Contacta con nosotros en support@example.com o info@company.org para obtener ayuda.
Recuerda enviar tus comentarios a feedback@company.org. ¡Gracias!


Resultado esperado:

['support@example.com', 'info@company.org', 'feedback@company.org']

In [1]:
import re

texto = "Contacta con nosotros en support@example.com o info@company.org para obtener ayuda. Recuerda enviar tus comentarios a feedback@company.org. ¡Gracias!"

patron_correo = r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}'
direcciones_correo = re.findall(patron_correo, texto)

print(direcciones_correo)


['support@example.com', 'info@company.org', 'feedback@company.org']


#Desafío 2:

Objetivo: Encuentra todas las palabras que comienzan con "a" y terminan con "o" en el siguiente texto.

El árbol es alto y tiene un fruto. El auto rojo está aparcado cerca.
Algunos animales, como el león y el mono, viven en el zoológico.

In [11]:
import re

texto = "El árbol es alto y tiene un fruto. El auto rojo está aparcado cerca. Algunos animales, como el león y el mono, viven en el zoológico."

patron_palabras = r'\b[aAá]r\w*o[l]\b|\b[aAá]u\w*o\b'
palabras_encontradas = re.findall(patron_palabras, texto)

print(palabras_encontradas)




['árbol', 'auto']


Resultado Esperado:

['árbol', 'auto']