# **Expresiones Regulares**


Estoy probando para subir a github

**Cuantificación**

Un cuantificador tras un carácter especifica la frecuencia con la que este puede ocurrir. Los cuantificadores más comunes son **`?`, `+` y `*`**:

- **El signo de interrogación `?`** indica que el carácter que le precede puede aparecer como mucho una vez. Por ejemplo, ob`?`scuro se corresponde con oscuro y obscuro.  
- **El signo más `+`** indica que el carácter que le precede debe aparecer al menos una vez. Por ejemplo, ho`+`la describe el conjunto infinito hola, hoola, hooola, hoooola, etcétera.  
- **El asterisco `*`** indica que el carácter que le precede puede aparecer cero, una, o más veces. Por ejemplo, 0`*`42 se corresponde con 42, 042, 0042, 00042, etcétera.  

**El punto "."**
El punto se interpreta por el motor de búsqueda como "cualquier carácter", es decir, busca cualquier carácter incluyendo los saltos de línea.

Aunque el punto es muy útil para encontrar caracteres que no conocemos, es necesario recordar que corresponde a cualquier carácter y que muchas veces esto no es lo que se requiere. Es muy diferente buscar cualquier carácter que buscar cualquier carácter alfanumérico o cualquier dígito o cualquier no-dígito o cualquier no-alfanumérico. Se debe tomar esto en cuenta antes de utilizar el punto y obtener resultados no deseados.  

**El signo de exclamación "!"**
Se utiliza para realizar una "búsqueda anticipada negativa". La construcción de la expresión regular es con el par de paréntesis, el paréntesis de apertura seguido de un signo de interrogación y un signo de exclamación. Dentro de la búsqueda tenemos la expresión regular. Por ejemplo, para excluir exactamente una palabra, habrá que utilizar ^(palabra.+|(?!palabra).*)$.

**La barra inversa o contrabarra "\\"**
La barra inversa se utiliza para escapar el siguiente carácter de la expresión de búsqueda de forma que este adquiera un significado especial o deje de tenerlo. O sea, la barra inversa no se utiliza nunca por sí sola, sino en combinación con otros caracteres. Al utilizarlo por ejemplo en combinación con el punto \. este deja de tener su significado normal y se comporta como un carácter literal.

De la misma forma, cuando se coloca la barra inversa seguida de cualquiera de los caracteres especiales, estos dejan de tener su significado especial y se convierten en caracteres de búsqueda literal.

Como ya se mencionó con anterioridad, la barra inversa también puede darle significado especial a caracteres que no lo tienen. A continuación hay una lista de algunas de estas combinaciones:

- \t — Representa un tabulador.
- \r — Representa el "retorno de carro" o "regreso al inicio" o sea el lugar en que la línea vuelve a iniciar.
- \n — Representa la "nueva línea" el carácter por medio del cual una línea da inicio.     
- \a — Representa una "campana" o "beep" que se produce al imprimir este carácter.
- \e — Representa la tecla "Esc" o "Escape"
- \f — Representa un salto de página
- \v — Representa un tabulador vertical
- \x — Se utiliza para representar caracteres ASCII o ANSI si conoce su código.  De esta forma, si se busca el símbolo de derechos de autor y la fuente en la que se busca utiliza el conjunto de caracteres latín-1 es posible encontrarlo utilizando \xA9".
- \u — Se utiliza para representar caracteres Unicode si se conoce su código. "\u00A2" representa el símbolo de centavos.     
- \d — Representa un dígito del 0 al 9.
- \w — Representa cualquier carácter alfanumérico.
- \s — Representa un espacio en blanco.
- \D — Representa cualquier carácter que no sea un dígito del 0 al 9.
- \W — Representa cualquier carácter no alfanumérico.
- \S — Representa cualquier carácter que no sea un espacio en blanco.
- \A — Representa el inicio de la cadena. No un carácter sino una posición.
- \Z — Representa el final de la cadena. No un carácter sino una posición.
- \b — Marca la posición de una palabra limitada por espacios en blanco, puntuación o el inicio/final de una cadena.
- \B — Marca la posición entre dos caracteres alfanuméricos o dos no-alfanuméricos.
- \Q y \E — Se interpreta como literal todo lo que vaya entre estas dos marcas. Ejemplo: \Q.*\E se interpreta como el literal .**  

Seguir leyendo en:
- https://es.wikipedia.org/wiki/Expresi%C3%B3n_regular
- http://do1.dr-chuck.com/pythonlearn/ES_es/pythonlearn.pdf (página 137) # 142
- https://docs.python.org/es/3/howto/regex.html

In [None]:
# Búsqueda de lí­neas que contengan 'lo que se busca'
#                                   ----------------
import re
man = open('PlazaVea.txt')
for linea in man:
    linea = linea.rstrip()
    if re.search('https://\S+@', linea):
        print(re.search('https://\S+@', linea).group())

In [None]:
import re # no es necesario ya que se importó en el bloque de código anterior
man = open('PlazaVea.txt')
for linea in man:
  linea = linea.rstrip()
  if re.search('h..f', linea):
    print(linea)

In [None]:
# Busca e imprime solo las líneas que contienen enlaces HTTPS, sin los textos que están antes:
import re
man = open('PlazaVea.txt')
for linea in man:
    linea = linea.rstrip()
    if re.search('https://', linea):
        print(re.search('https://\S+', linea).group())

**Buscar una palabra específica**

 - **Desde la web o url:**

In [None]:
import requests
import re

url = "https://www.wikipedia.org/"

# Obtener el contenido de la página web
response = requests.get(url)

# Buscar la palabra "Python" en el contenido de la página web
matches = re.findall(r"Free", response.text)

# Imprimir el número de veces que aparece la palabra "Python" en la página web
print(f"La palabra 'Free' aparece {len(matches)} veces en la página web.")

La sintaxis del formato `f-string` en Python le permite incrustar expresiones dentro de cadenas literales, utilizando el especificador de formato `f` seguido del literal de cadena entre llaves. Dentro de las llaves, puede incluir expresiones de Python que serán evaluadas y formateadas como parte de la cadena resultante.

En la expresión `f"La palabra 'tiempo' aparece {len(coincidencias)} veces en el texto."`, sucede lo siguiente:

1. Se evalúa la expresión `len(coincidencias)`, la cual calcula el número de veces que aparece la palabra "tiempo" en el texto.
2. El resultado de la expresión, que es un número entero, se formatea como una cadena y se inserta en el literal de cadena en la posición donde se coloca la expresión.
3. Luego, la cadena resultante se imprime en la consola.

Entonces, la salida del código `print(f"La palabra 'tiempo' aparece {len(coincidencias)} veces en el texto.")` será una cadena que diga algo como "La palabra 'tiempo' aparece 1 vez en el texto.", donde el número 1 se reemplaza con el número real de veces que aparece la palabra "tiempo" en el texto.

- **En un texto:**


- `r`: este prefijo indica que la cadena es una cadena sin formato, lo que significa que las barras invertidas no se tratan como caracteres de escape.

En el siguiente ejemplo, la expresión regular `r"tiempo"` busca la cadena literal "tiempo" en un texto determinado. Utiliza la sintaxis de cadena sin formato (`r"`) para evitar que el carácter de barra invertida (`\`) se interprete como un carácter de escape.

In [None]:
import re
texto = "Si torturas los datos por suficiente tiempo, confesarán lo que sea."
patron = r"tiempo"
coincidencias = re.findall(patron, texto)
print(coincidencias)  # Salida: ['tiempo']
print(f"La palabra 'tiempo' aparece {len(coincidencias)} veces en el texto.")


**Buscar cualquier dígito en un texto:**

El patrón de expresión regular `r"\d"` **coincide con cualquier carácter de un solo dígito del 0 al 9**. Utiliza las siguientes construcciones:

- `r`: este prefijo indica que la cadena es una cadena sin formato, lo que significa que las barras invertidas no se tratan como caracteres de escape.
- `\d`: Esta es una clase de carácter especial que coincide con cualquier carácter de dígito decimal (0-9).

En el siguiente ejemplo, el patrón `r"\d"` se usa para encontrar todos los caracteres dígitos en el texto "Ronald Coase, 1910-2003. Premio Nobel de Economía, 1991". El resultado es una lista de todos los caracteres de dígitos del texto, que en este caso es ['2', '5'].

In [None]:
import re

texto = "Ronald Coase, 1910-2003. Premio Nobel de Economía, 1991"
patron = r"\d"
coincidencias = re.findall(r"\d", texto)
print(coincidencias)  # Salida:['1', '9', '1', '0', '2', '0', '0', '3', '1', '9', '9', '1']

**Validar un formato de dirección de correo electrónico:**

In [None]:
import re

correo = "ejemplo@dominio.com"
patron = r"\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b"
if re.fullmatch(patron, correo):
    print("Correo electrónico válido.")
else:
    print("Correo electrónico inválido.")

**Extraer todos los hashtags de un tweet:**

In [None]:
import re

tweet = "¡Qué día tan soleado! #verano #playa"
patron = r"#\w+"
hashtags = re.findall(patron, tweet)
print(hashtags)  # Salida: ['#verano', '#playa']

**Extraer números de teléfono en diferentes formatos:**

In [None]:
import re

texto = "Puedes contactarme al 123-456-7890 o al (987) 654-3210."

# Buscar fechas en formato dd/mm/aaaa
fechas_ddmmyyyy = re.findall(r"\b\d{3}[-.\s]?\d{3}[-.\s]?\d{4}\b", texto)

# Buscar fechas en formato aaaa-mm-dd
fechas_aaaammdd = re.findall(r"\b\d{3}.{2,}\d{3}-\d{4}\b", texto) # ¿qué debo modificar en ésta línea?

# Imprimir las fechas encontradas
print(f"Fechas en formato dd/mm/aaaa: {fechas_ddmmyyyy}")
print(f"Fechas en formato aaaa-mm-dd: {fechas_aaaammdd}")


**Extraer fechas en diferentes formatos:**

In [None]:
import re

texto = "La reunión será el 01/01/2022 o el 2023-12-31."
patron = r"\b(?:\d{1,2}[/-]\d{1,2}[/-]\d{2,4}|\d{4}-\d{2}-\d{2})\b"
fechas = re.findall(patron, texto)
print(fechas)  # Salida: ['01/01/2022', '2023-12-31']


**Contar palabras que contienen la letra 'a' al menos dos veces en un texto.**

In [None]:
import re

def contar_palabras_con_a_dos_veces(texto):
    patron = r"\b\w*(a\w*a)\w*\b"
    palabras = re.findall(patron, texto)
    return len(palabras)

texto_ejemplo = "La casa está cerca. El gato caza ratones."
contador = contar_palabras_con_a_dos_veces(texto_ejemplo)
print("Número de palabras con al menos dos 'a':", contador)  # Salida: 2

## **Más ejercicios**

In [None]:
# seguimos buscando lineas con correos, fechas, números telefónicos
import re

class ExpresionesRegulares:
    def __init__(self, texto):
        self.texto = texto

    def encontrar_correos(self):
        """Encuentra y muestra todas las direcciones de correo electrónico en el texto."""
        correos_encontrados = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', self.texto)
        return correos_encontrados

    def encontrar_numeros_telefono(self):
        """Encuentra y muestra todos los números de teléfono en el texto."""
        telefonos_encontrados = re.findall(r'\b\d{3}[-.\s]?\d{3}[-.\s]?\d{4}\b', self.texto)
        return telefonos_encontrados

    def encontrar_fechas(self):
        """Encuentra y muestra todas las fechas en el texto."""
        fechas_encontradas = re.findall(r'\b\d{1,2}[/-]\d{1,2}[/-]\d{2,4}\b', self.texto)
        return fechas_encontradas

# Ejemplo de uso:
texto_ejemplo = """
Este es un ejemplo de texto con algunas direcciones de correo como ejemplo@dominio.com y otra@example.org.
También tiene números de teléfono como 123-456-7890 o 987.654.3210.
Además, incluye fechas en diferentes formatos como 01/01/2022, 2023-12-31 o 15-05-24.
"""

# Crear una instancia de la clase y pasarle el texto de ejemplo
ejemplo_expresiones = ExpresionesRegulares(texto_ejemplo)

# Encontrar y mostrar correos electrónicos
print("Correos encontrados:")
print(ejemplo_expresiones.encontrar_correos())

# Encontrar y mostrar números de teléfono
print("\nNúmeros de teléfono encontrados:")
print(ejemplo_expresiones.encontrar_numeros_telefono())

# Encontrar y mostrar fechas
print("\nFechas encontradas:")
print(ejemplo_expresiones.encontrar_fechas())

In [None]:
# Crear una instancia de la clase ExpresionesRegulares con un nuevo texto
texto_nuevo = "Este es otro ejemplo de texto con una dirección de correo ejemplo2@dominio.com y un número de teléfono 555-555-5555."
ejemplo_expresiones_nuevo = ExpresionesRegulares(texto_nuevo)

# Encontrar y mostrar correos electrónicos en el nuevo texto
print("\nCorreos encontrados en el nuevo texto:")
print(ejemplo_expresiones_nuevo.encontrar_correos())

# Encontrar y mostrar números de teléfono en el nuevo texto
print("\nNúmeros de teléfono encontrados en el nuevo texto:")
print(ejemplo_expresiones_nuevo.encontrar_numeros_telefono())


In [81]:
import re

# Expresión regular para que coincida con una contraseña segura
strong_password_regex = r"^(?=.*[a-z])(?=.*[A-Z])(?=.*\d)(?=.*[@$!%*#?&])[A-Za-z\d@$!%*#?&]{8,}$"

# Expresión regular para que coincida con una URL válida
valid_url_regex = r"^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$"

# Expresión regular para que coincida con una dirección de correo electrónico válida
valid_email_regex = r"^[a-z0-9._%+-]+@[a-z0-9.-]+\.[a-z]{2,}$"

In [None]:
# también agregamos buscar html
import re

class ExpresionesRegularesAvanzadas:
    def __init__(self, texto):
        self.texto = texto

    def encontrar_codigos_postales(self):
        """Encuentra y muestra todos los códigos postales en el texto."""
        codigos_postales_encontrados = re.findall(r'\b\d{5}(?:[-\s]\d{4})?\b', self.texto)
        return codigos_postales_encontrados

    def encontrar_etiquetas_html(self):
        """Encuentra y muestra todas las etiquetas HTML en el texto."""
        etiquetas_encontradas = re.findall(r'<[^>]+>', self.texto)
        return etiquetas_encontradas

    def encontrar_urls(self):
        """Encuentra y muestra todas las URLs en el texto."""
        urls_encontradas = re.findall(r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+', self.texto)
        return urls_encontradas

# Ejemplo de uso:
texto_ejemplo = """
Este es un ejemplo de texto con diferentes tipos de datos.
Incluye códigos postales como 12345 o 54321-6789.
También tiene etiquetas HTML como <p> y <a href="https://www.ejemplo.com">.
Además, contiene URLs como https://www.ejemplo.com/ejemplo y http://otro-ejemplo.com.
"""

# Crear una instancia de la clase y pasarle el texto de ejemplo
expresiones_avanzadas = ExpresionesRegularesAvanzadas(texto_ejemplo)

# Encontrar y mostrar códigos postales
print("Códigos postales encontrados:")
print(expresiones_avanzadas.encontrar_codigos_postales())

# Encontrar y mostrar etiquetas HTML
print("\nEtiquetas HTML encontradas:")
print(expresiones_avanzadas.encontrar_etiquetas_html())

# Encontrar y mostrar URLs
print("\nURLs encontradas:")
print(expresiones_avanzadas.encontrar_urls())
