# Introducción avanzada a las expresiones regulares (Regex) en el análisis de datos


<img src="https://miro.medium.com/max/2392/0*1-i9w0e4kklVQl5B.jpg">

Se estima que el 80% de los datos son **no estructurados**

¡Y los datos **no estructurados** son básicamente **datos de texto**!

El texto está presente en cada proceso de negocio importante, desde los tickets de soporte hasta la retroalimentación de productos y las interacciones con los clientes.

No hay duda de que el análisis de texto tiene una amplia gama de aplicaciones y casos de uso en el negocio:
* Entender al cliente
* Gestión de riesgos
* Predicción y prevención del crimen
* Publicidad personalizada
* ...

# Introducción a las Expresiones Regulares (Regex) en el Análisis de Datos

Las Expresiones Regulares, a menudo abreviadas como Regex, son herramientas esenciales en el análisis de datos para procesar y manipular datos textuales. Regex proporciona un método para buscar y manipular cadenas utilizando una sintaxis especializada que define patrones.

## ¿Qué es Regex?

Regex es una secuencia de caracteres que forma un patrón de búsqueda. Se puede usar para realizar diversas tareas de procesamiento de texto, tales como:

- **Coincidencia de Patrones**: Buscar patrones específicos dentro del texto.
- **Validación de Datos**: Asegurar que los datos estén en un formato correcto.
- **Extracción de Datos**: Extraer porciones específicas del texto basadas en patrones.
- **Sustitución de Texto**: Reemplazar partes del texto utilizando la coincidencia de patrones.

# Contexto Histórico de las Expresiones Regulares en el Análisis de Datos

Las Expresiones Regulares (Regex) tienen una rica historia que se remonta a los años 1950, con conceptos fundamentales desarrollados por el matemático estadounidense Stephen Kleene. Esta sección tiene como objetivo proporcionar una visión histórica más profunda sobre Regex y su evolución en el contexto del análisis de datos.

## El Origen de las Expresiones Regulares

- **Contribución de Stephen Kleene**: En 1956, Stephen Kleene introdujo el concepto de Expresiones Regulares en su artículo "Representation of Events in Nerve Nets and Finite Automata" en el libro "Automata Studies", editado por Claude Shannon y John McCarthy. Esto formalizó la descripción de los lenguajes regulares.
- **Unix y Regex**: El uso generalizado de Regex comenzó con utilidades de procesamiento de texto de Unix como `ed`, un editor, y `grep` (print de expresión regular global), un filtro. Estas herramientas hicieron de Regex una parte fundamental del procesamiento de texto y el reconocimiento de patrones en la informática.

## Regex en la Informática

- **Procesador de Expresiones Regulares**: Este procesador traduce una expresión regular en un autómata finito no determinista (NFA), donde varios estados pueden resultar de un estado dado y símbolo. Este autómata se hace entonces determinista (con solo una posible transición de estado para un símbolo particular) y se utiliza para reconocer subcadenas que coinciden con la expresión regular.

## El Papel de Regex en el Análisis de Datos

En el análisis de datos, Regex se vuelve particularmente poderoso en escenarios como:

- **Preprocesamiento de Datos de Texto**: Limpieza y estandarización de datos de texto para análisis.
- **Análisis de Archivos de Registro**: Analizar archivos de registro para extraer información relevante.
- **Procesamiento de Lenguaje Natural**: Identificar y manipular patrones lingüísticos.
- **Raspado de Datos**: Extracción de información de fuentes de datos no estructuradas.

## Sintaxis y Operaciones de Regex

Las operaciones de Regex se basan en una sintaxis única que incluye una variedad de caracteres especiales y construcciones. Algunos elementos comunes incluyen:

- `.`: Coincide con cualquier carácter
- `*`: Cero o más ocurrencias
- `+`: Una o más ocurrencias
- `?`: Cero o una ocurrencia
- `[ ]`: Un conjunto de caracteres
- `{ }`: Un número específico de ocurrencias
- `( )`: Captura y agrupa

## Recursos y Lecturas Adicionales

Para aquellos nuevos en Regex, o buscando profundizar su entendimiento, los siguientes recursos pueden ser invaluables:

- [Inicio Rápido de Expresiones Regulares](https://www.regular-expressions.info/quickstart.html)
- [RegexOne - Aprende Expresiones Regulares con ejercicios simples e interactivos](https://regexone.com/)
- [Documentación del Módulo `re` de Python](https://docs.python.org/3/library/re.html)

Dominando Regex, los analistas de datos pueden realizar análisis de texto y manipulación de datos más sofisticados, mejorando sus capacidades generales de análisis de datos.

In [None]:
# Importando el módulo de expresiones regulares de la biblioteca estándar de Python
import re

# Cadenas que se buscarán para coincidir con patrones de regex
str1 = "varks Aard pertenecen al Capitán"
str2 = "La famosa ecuación de Albert, E = mc^2."
str3 = "Ubicado en 455 Serra Mall."
str4 = "¡Cuidado con los cambiaformas!"

# Creando una lista de cadenas para probar patrones de regex
test_strings = [str1, str2, str3, str4]

In [None]:
# Iterando a través de cada cadena en la lista test_strings
for test_string in test_strings:
    # Imprimiendo la cadena de prueba para referencia
    print('\nLa cadena de prueba es "' + test_string + '"')
    
    # Usando re.search() para encontrar la primera ubicación donde el patrón de regex '[í]' coincide
    # '[í]' es un patrón de regex que busca el carácter 'í' en la cadena
    match = re.search('[í]', test_string)

    # Comprobando si se encontró una coincidencia
    if match:
        # Imprimiendo el carácter coincidente si se encuentra una coincidencia
        # match.group() devuelve la parte de la cadena donde hay una coincidencia
        print('- La primera coincidencia posible es: ' + match.group())
    else:
        # Indicando que no se encontró ninguna coincidencia si el patrón de regex no coincide con ninguna parte de la cadena
        print('- ** no hay coincidencia. **')

Vamos a desglosar el código anterior línea por línea para una mejor comprensión:

### 1. Iterando Sobre Cada Cadena en la Lista
for test_string in test_strings:
`test_strings` es una lista que contiene múltiples cadenas. En este bucle `for`, iteramos sobre cada elemento de la lista. Durante cada iteración, `test_string` se refiere a la cadena actual que se está procesando.

### 2. Imprimiendo la Cadena de Prueba Actual
print('La cadena de prueba es "' + test_string + '"')
Esta línea simplemente muestra la cadena actual que se está examinando en el bucle. Ayuda a rastrear a qué cadena se le está aplicando el regex.

### 3. Buscando un Patrón en la Cadena
match = re.search(r'[A-Z]', test_string)
Aquí, `re.search()` se utiliza para encontrar la primera ubicación dentro de `test_string` donde el patrón de regex `[A-Z]` coincide. Este patrón busca cualquier letra mayúscula de la A a la Z. La función devuelve un objeto `SRE_Match` si se encuentra una coincidencia, y `None` si no se encuentra ninguna.

### 4. Comprobando si Hay una Coincidencia e Imprimiendo el Resultado

 `
if match:
    print('The first possible match is: ' + match.group())
else:
    print('no match.')
 `


En esta sección, comprobamos si `match` es un objeto `SRE_Match` o `None`. Si es `SRE_Match`, significa que se encontró una coincidencia, y imprimimos la subcadena coincidente usando `match.group()`. `group()` es un método de los objetos `SRE_Match` que devuelve la parte de la cadena donde se encontró la coincidencia. Si `match` es `None`, implica que no se encontró ninguna coincidencia, y imprimimos un mensaje indicándolo.

### 5. Entendiendo el Comportamiento de `re.search()`
- Coincidencia de un Solo Carácter: Dado que el patrón `[A-Z]` está diseñado para coincidir con un solo carácter mayúscula, `re.search()` devuelve solo el primer carácter que coincide.
- Solo la Primera Coincidencia: `re.search()` detiene la búsqueda después de encontrar la primera coincidencia. No continúa buscando más coincidencias en la cadena.

### 6. Alternativa: Encontrar Todas las Coincidencias
Si el objetivo es encontrar todas las coincidencias de un patrón en una cadena, se debería usar `re.findall()` en su lugar. Esta función devuelve una lista que contiene todas las coincidencias del patrón en la cadena, no solo la primera.
matches = re.findall(r'[A-Z]', test_string)
Esto devolvería una lista de todos los caracteres mayúsculas encontrados en `test_string`.

In [None]:
# Como recapitulación de test_string
test_strings = [
    "varks Aard pertenecen al Capitán",
    "La famosa ecuación de Albert, E = mc^2.",
    "Ubicado en 455 Serra Mall.",
    "¡Cuidado con los cambiaformas!"
]

# Iterando sobre cada cadena en la lista test_strings
for string in test_strings:
    # Imprimiendo la cadena actual
    print(string)
    
    # Usando re.findall para buscar todas las ocurrencias del patrón de regex en la cadena
    # El patrón '[A-Z]' coincide con cualquier letra mayúscula de la A a la Z
    matches = re.findall(r'[A-Z]', string)
    
    # Imprimiendo la lista de coincidencias encontradas en la cadena actual
    # Cada coincidencia es una letra mayúscula de la cadena
    print("-", matches, "\n")

Cuando trabajas con expresiones regulares en Python, tienes la opción de compilar tus patrones de regex en objetos de patrón. Esto puede mejorar el rendimiento, especialmente si vas a usar el mismo patrón varias veces. La precompilación convierte tu patrón de regex en un objeto `SRE_Pattern`, que luego se puede usar para realizar operaciones de coincidencia, búsqueda y otras.

## ¿Por qué Precompilar Regex?

- **Rendimiento**: Compilar un patrón una vez y usarlo varias veces es más eficiente que interpretar el mismo patrón repetidamente.
- **Organización**: Si tienes múltiples patrones, compilarlos en objetos ayuda a mantener tu código organizado.
- **Reutilización**: Una vez compilado, el mismo objeto de patrón se puede usar en múltiples operaciones de coincidencia/búsqueda sin necesidad de recompilación.
- **Legibilidad**: Te permite asignar nombres descriptivos a tus patrones, haciendo que tu código sea más legible.

## Cómo Precompilar Patrones de Regex

Aquí hay un ejemplo de cómo precompilar patrones de regex en Python:

```python
import re

# Precompilar el patrón para coincidir con cualquier letra mayúscula
pattern_uppercase = re.compile(r'[A-Z]')

# Ahora puedes usar pattern_uppercase para buscar dentro de cadenas
match = pattern_uppercase.search('Hello World')
if match:
    print('Letra mayúscula encontrada:', match.group())

```
En este código, `re.compile` se usa para compilar el patrón de regex `[A-Z]` que coincide con cualquier letra mayúscula. El objeto resultante `pattern_uppercase` se puede usar para buscar a través de cadenas sin tener que recompilar el patrón cada vez, lo que lleva a una ejecución más eficiente, particularmente cuando se trata de grandes cantidades de texto o muchas búsquedas.

Incluso puedes almacenar múltiples patrones compilados en una lista y iterar sobre ellos, como se muestra en el siguiente ejemplo:

In [None]:
# Importar el módulo de expresiones regulares
import re

# Definir una lista de patrones de regex
patterns = [
    '[ABC]',                # Coincide con cualquiera de 'A', 'B' o 'C'
    '[^ABC]',               # Coincide con cualquier carácter excepto 'A', 'B' o 'C'
    '[ABC^]',               # Coincide con 'A', 'B', 'C' o '^'
    '[0-9]',                # Coincide con cualquier dígito único del '0' al '9'
    '[0-4]',                # Coincide con cualquier dígito único del '0' al '4'
    '[A-Z]',                # Coincide con cualquier letra mayúscula de la 'A' a la 'Z'
    '[a-z]',                # Coincide con cualquier letra minúscula de la 'a' a la 'z'
    '[A-Za-z]',             # Coincide con cualquier letra sin importar el caso
    '[A-Za-z0-9]',          # Coincide con cualquier carácter alfanumérico
    '[-a-z]',               # Coincide con '-' o cualquier letra minúscula
    '[- a-z]'               # Coincide con '-', espacio o cualquier letra minúscula
]

# Compilar los patrones para crear objetos SRE_Pattern para una coincidencia eficiente
compiled_patterns = [re.compile(p) for p in patterns]

# Función para encontrar la primera coincidencia de un patrón en una cadena dada
def find_match(compiled_pattern, string):
    match = compiled_pattern.search(string)  # Realizar la búsqueda usando el patrón compilado
    return match.group() if match else 'sin coincidencias.'  # Devolver el texto coincidente o 'sin coincidencias.'

# Lista de cadenas de prueba para coincidir
test_strings = [
    "ABC fácil como 123",
    "Simple como do re mi",
    "ABC, 123, nena, tú y yo chica"
]

# Iterar sobre cada cadena en la lista test_strings
for test_string in test_strings:
    # Imprimir la cadena de prueba para claridad
    print(f"En: \"{test_string}\"")
    # Encontrar e imprimir la primera coincidencia para cada patrón compilado
    for compiled_pattern in compiled_patterns:
        # Recuperar la representación de cadena del patrón para la salida
        pattern_text = compiled_pattern.pattern
        # Encontrar la primera coincidencia para el patrón en la cadena de prueba actual
        match_text = find_match(compiled_pattern, test_string)
        # Imprimir el patrón y su primera coincidencia (o 'sin coincidencias.')
        print(f' - La primera coincidencia potencial para "{pattern_text}" \t es: {match_text}')
    # Imprimir una nueva línea para una mejor separación de la salida en la consola
    print()

Este script de Python demuestra cómo usar expresiones regulares (regex) para encontrar patrones dentro de cadenas. Los comentarios en el código ayudarán a explicar cada paso del proceso.

## Definiendo Patrones de Regex

Definimos una lista de patrones de regex. Cada patrón es una cadena que especifica una regla para lo que constituye una coincidencia:

- `[ABC]`: Coincide con cualquiera de 'A', 'B' o 'C'.
- `[^ABC]`: Coincide con cualquier carácter excepto 'A', 'B' o 'C'.
- `[ABC^]`: Coincide con 'A', 'B', 'C' o '^'.
- `[0-9]`: Coincide con cualquier dígito único del '0' al '9'.
- `[0-4]`: Coincide con cualquier dígito único del '0' al '4'.
- `[A-Z]`: Coincide con cualquier letra mayúscula de la 'A' a la 'Z'.
- `[a-z]`: Coincide con cualquier letra minúscula de la 'a' a la 'z'.
- `[A-Za-z]`: Coincide con cualquier letra sin importar el caso.
- `[A-Za-z0-9]`: Coincide con cualquier carácter alfanumérico.
- `[-a-z]`: Coincide con '-' o cualquier letra minúscula.
- `[- a-z]`: Coincide con '-', espacio o cualquier letra minúscula.

patterns = [...]

## Compilando los Patrones

Cada patrón en la lista se compila para una coincidencia eficiente. Esto es particularmente útil cuando un patrón se usa varias veces.

`
compiled_patterns = [re.compile(p) for p in patterns]
`

## Definiendo la Función `find_match`

La función `find_match` busca la primera coincidencia de un patrón compilado dentro de una cadena dada. Si se encuentra una coincidencia, devuelve el texto coincidente; de lo contrario, devuelve 'sin coincidencias.'

`
def find_match(compiled_pattern, string):
    ...
`

## Cadenas de Prueba

Se define una lista de cadenas de prueba, que se buscarán para encontrar coincidencias contra los patrones.

`
test_strings = [...]
`

## Realizando la Coincidencia de Patrones

El script itera sobre cada cadena en `test_strings`, y para cada cadena, aplica todos los patrones de regex compilados. Para cada patrón, imprime la primera coincidencia encontrada o 'sin coincidencias.' si no se encuentra ninguna.

`
for test_string in test_strings:
    print(f"En: \"{test_string}\"")
    for compiled_pattern in compiled_patterns:
        ...
    print()
`

## Trabajando con Listas de Patrones Compilados

Incluso puedes almacenar múltiples patrones compilados en una lista y iterar sobre ellos, como se muestra en el siguiente ejemplo:

`
print(patterns[1])
print(patterns[1].pattern)
`

En esta sección, demostramos cómo acceder y usar patrones compilados individuales de la lista. La expresión `patterns[1]` hace referencia al segundo patrón compilado en la lista. Al imprimir `patterns[1].pattern`, podemos ver el patrón de regex actual como una cadena.

Este proceso ayuda a identificar qué parte de la cadena coincide con los patrones dados y es una manera práctica de aprender y entender las aplicaciones de regex en Python.

In [None]:
import re  # Importando el módulo de expresiones regulares

# Definiendo la cadena que vamos a comprobar
needle = 'needlers'

# Enfoque de Python: Usando comprensión de listas y any()
# Esta línea verifica si la cadena 'needle' termina con alguno de los sufijos especificados ('ly', 'ed', 'ing', 'ers')
# any() devuelve True si al menos una de las condiciones es True
print(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))

# Expresión regular al vuelo en Python
# Esto utiliza expresiones regulares para comprobar si 'needle' termina con los sufijos especificados
# La función search() busca en 'needle' cualquier coincidencia con el patrón de expresión regular
# bool() se utiliza para convertir el resultado en True o False
print(bool(re.search(r'(ly|ed|ing|ers)$', needle)))

# Expresión regular compilada en Python
# Compilando el patrón de expresión regular para un reuso más rápido
# Esto es más eficiente si el patrón se usa varias veces
comp = re.compile(r'(ly|ed|ing|ers)$')
print(bool(comp.search(needle)))

# Los comandos %timeit se usan en Jupyter Notebooks para medir el tiempo de ejecución de pequeños fragmentos de código
# -n 1000 especifica que el comando se ejecutará 1000 veces en cada bucle
# -r 50 indica que habrá 50 de estos bucles
# Esto se utiliza para obtener una medida más precisa del tiempo de ejecución promediando múltiples ejecuciones

# %timeit para el enfoque de Python
%timeit -n 1000 -r 50 bool(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))

# %timeit para la expresión regular al vuelo
%timeit -n 1000 -r 50 bool(re.search(r'(ly|ed|ing|ers)$', needle))

# %timeit para la expresión regular compilada
%timeit -n 1000 -r 50 bool(comp.search(needle))

### Resumen de términos para expresiones regulares

### Terminología de Expresiones Regulares

Las expresiones regulares (regex o regexp) son herramientas poderosas para el emparejamiento de patrones y la manipulación de texto. Aquí tienes una explicación detallada de algunos términos y símbolos comúnmente utilizados en las expresiones regulares:

- **[ ] (Conjunto de Caracteres)**: Los corchetes denotan un conjunto de caracteres, donde uno de los elementos internos debe coincidir. Por ejemplo, `[abc]` coincidiría con cualquiera de los caracteres 'a', 'b' o 'c'. También puedes especificar rangos como `[0-9]` para coincidir con cualquier dígito.

- **| (Tubo o Alternancia)**: El símbolo de tubo representa un elemento "o". Por ejemplo, `a|b` coincidiría con 'a' o 'b'.

- **{ } (Cuantificador de Intervalo)**: Las llaves se utilizan para especificar un intervalo o la cantidad de veces que un patrón debe repetirse. Por ejemplo, `a{2,4}` coincidiría con 'aa', 'aaa' o 'aaaa', donde el número de 'a's cae entre 2 y 4.

- **\ (Barra Inversa)**: La barra inversa es un carácter de escape que identifica al siguiente carácter como un carácter literal y no como un símbolo especial de expresión regular. Por ejemplo, `\.` coincidiría con un punto (.) en lugar de cualquier carácter.

- **. (Punto)**: En el modo predeterminado, el punto coincide con cualquier carácter excepto un salto de línea. Por ejemplo, `a.b` coincidiría con 'axb', 'a#b' o 'a$b', donde 'x', '#', y '$' pueden ser cualquier carácter excepto un salto de línea.

- **^ (Acento Circunflejo)**: El símbolo de acento circunflejo coincide con el inicio de la cadena. En el modo MULTILINE, también coincide inmediatamente después de cada salto de línea. Por ejemplo, `^abc` coincidiría con 'abc' al principio de una línea.

- **$ (Signo de Dólar)**: El signo de dólar coincide con el final de la cadena o justo antes del salto de línea al final de la cadena. En el modo MULTILINE, también coincide antes de un salto de línea. Por ejemplo, `xyz$` coincidiría con 'xyz' al final de una línea.

- **\* (Asterisco)**: El asterisco hace que el regex resultante coincida con 0 o más repeticiones del patrón anterior, tantas repeticiones como sean posibles. Por ejemplo, `ab*` coincidiría con 'a' o 'ab' seguido de cualquier número de 'b's.

- **+ (Signo de Más)**: El signo de más hace que el regex coincida con 1 o más repeticiones del patrón anterior. Por ejemplo, `ab+` coincidiría con 'a' seguido de cualquier número no nulo de 'b's pero no coincidiría solo con 'a'.

- **? (Signo de Interrogación)**: El signo de interrogación hace que el regex coincida con 0 o 1 repeticiones del patrón anterior. Por ejemplo, `ab?` coincidiría con 'a' o 'ab'.

#### Clases de Caracteres Adicionales:

- **\d (Dígito)**: Coincide con cualquier dígito decimal; esto es equivalente a la clase de caracteres [0-9].

- **\D (No Dígito)**: Coincide con cualquier carácter que no sea un dígito; esto es equivalente a la clase de caracteres [^0-9].

- **\s (Espacio en Blanco)**: Coincide con cualquier carácter de espacio en blanco, incluyendo espacio, tabulador, salto de línea, retorno de carro, avance de formulario y tabulador vertical. Esto es equivalente a la clase de caracteres [ \t\n\r\f\v].

- **\S (No Espacio en Blanco)**: Coincide con cualquier carácter que no sea de espacio en blanco. Esto es equivalente a la clase de caracteres [^ \t\n\r\f\v].

- **\w (Carácter de Palabra)**: Coincide con cualquier carácter alfanumérico o guion bajo; esto es equivalente a la clase de caracteres [a-zA-Z0-9_].

- **\W (Carácter No Palabra)**: Coincide con cualquier carácter que no sea alfanumérico o guion bajo; esto es equivalente a la clase de caracteres [^a-zA-Z0-9_].

Las expresiones regulares pueden ser un poco complejas, pero son increíblemente poderosas para tareas de procesamiento de texto. Para una documentación más comprensiva y completa, consulta la [Documentación de Expresiones Regulares de Python](http://docs.python.org/2/library/re.html#re-syntax).

### Ejemplos de Expresiones Regulares

Exploraremos algunos patrones básicos de expresiones regulares y sus explicaciones:

- **Ejemplo 1 - Coincidir Dígitos ( \d )**:
  - Patrón: `\d+`
  - Explicación: Este patrón coincidirá con uno o más dígitos (0-9) en una cadena. Por ejemplo, coincidirá con '123' en 'abc123xyz'.

- **Ejemplo 2 - Coincidir Direcciones de Correo Electrónico**:
  - Patrón: `[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}`
  - Explicación: Este patrón coincide con una dirección de correo electrónico básica. Busca una secuencia de caracteres, seguida de '@', luego otra secuencia, un punto y un dominio con al menos dos letras. Por ejemplo, coincide con 'usuario@example.com'.

- **Ejemplo 3 - Coincidir Fechas (dd/mm/yyyy)**:
  - Patrón: `\d{2}/\d{2}/\d{4}`
  - Explicación: Este patrón coincide con una fecha en el formato 'dd/mm/yyyy', donde 'dd' representa el día, 'mm' el mes y 'yyyy' el año. Por ejemplo, coincide con '25/12/2022'.

- **Ejemplo 4 - Extraer URLs de Texto**:
  - Patrón: `https?://\S+`
  - Explicación:

In [None]:
import re

# Patrones definidos para cada ejercicio
pattern1 = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
pattern2 = r'\b\d{2}/\d{2}/\d{4}\b'
pattern3 = r'https?://\S+'
pattern4 = r'\(\d{3}\) \d{3}-\d{4}'
pattern5 = r'\b\w+-\w+\b'
pattern7 = r'\b\d{2}/\d{2}/\d{4}\b'
pattern8 = r'#\w+'
pattern9 = r'@\w+'
pattern10 = r'\(\+?\d{1,3}\)? \d{3}-\d{4}'

# Encontrar e imprimir coincidencias para cada ejercicio
print("Ejercicio 1 - Coincidir Direcciones de Correo Electrónico:")
print(re.findall(pattern1, text1))
print()

print("Ejercicio 2 - Extraer Fechas:")
print(re.findall(pattern2, text2))
print()

print("Ejercicio 3 - Encontrar URLs:")
print(re.findall(pattern3, text3))
print()

print("Ejercicio 4 - Extraer Números de Teléfono:")
print(re.findall(pattern4, text4))
print()

print("Ejercicio 5 - Coincidir Palabras con Guiones:")
print(re.findall(pattern5, text5))
print()

print("Ejercicio 7 - Coincidir Fechas (mm/dd/yyyy):")
print(re.findall(pattern7, text7))
print()

print("Ejercicio 8 - Extraer Hashtags:")
print(re.findall(pattern8, text8))
print()

print("Ejercicio 9 - Extraer Usuarios Mencionados:")
print(re.findall(pattern9, text9))
print()

print("Ejercicio 10 - Coincidir Números de Teléfono (con código de país opcional):")
print(re.findall(pattern10, text10))

### Grupos de Captura en Expresiones Regulares

Los grupos de captura son una característica poderosa en las expresiones regulares que te permiten extraer partes específicas de un texto coincidente. En Python, puedes trabajar con grupos de captura usando los objetos `SRE_Match` y métodos como `.groups()` y `.group()`.

#### ¿Qué Son los Grupos de Captura?

Un grupo de captura es una parte de un patrón de regex encerrado entre paréntesis `( )`. Sirve para dos propósitos principales:

1. **Agrupación:** Puedes usar paréntesis para agrupar partes de un patrón. Esto es útil para aplicar cuantificadores como `*`, `+`, o `?` a múltiples caracteres o subpatrones. Por ejemplo, `(ab)+` coincidirá con una o más ocurrencias de 'ab' como grupo.

2. **Extracción:** Los grupos de captura te permiten extraer porciones específicas del texto coincidente. Cada conjunto de paréntesis crea un grupo de captura separado, y puedes acceder al contenido coincidente de estos grupos individualmente.

#### Usando Grupos de Captura en Python

En Python, cuando usas expresiones regulares, el objeto de coincidencia resultante (`SRE_Match`) proporciona métodos para trabajar con grupos de captura:

- **`.groups()`**: Este método devuelve una tupla que contiene todos los grupos capturados. El elemento 0 de esta tupla es la coincidencia completa de todo el regex.

- **`.group(n)`**: Para acceder a un grupo de captura específico, pasas su índice `n` al método `.group()`. El índice se basa en el orden de los paréntesis de apertura en el patrón de regex, comenzando desde 1. El índice 0 se refiere a la coincidencia completa.

#### Ejemplo:

Ilustremos el concepto con un ejemplo:

In [None]:
import re

# Supongamos que queremos extraer fechas en el formato "dd/mm/aaaa" de un texto.
text = "Reunión programada para el 25/12/2022 y el 31/12/2022."

# Define el patrón de regex con grupos de captura para el día, mes y año.
pattern = r'(\d{2})/(\d{2})/(\d{4})'

# Buscar coincidencias usando el patrón.
matches = re.finditer(pattern, text)

# Iterar a través de las coincidencias y acceder a los grupos de captura.
for match in matches:
    # La coincidencia completa (grupo 0) es accesible como match.group(0).
    print(f"Coincidencia Completa: {match.group(0)}")
    
    # Acceder a grupos de captura individuales usando match.group(n).
    día = match.group(1)
    mes = match.group(2)
    año = match.group(3)
    
    print(f"Día: {día}, Mes: {mes}, Año: {año}")

In this example, we use capturing groups to extract day, month, and year components of the date. Students can see how to access these components using the `.group(n)` method and understand the utility of capturing groups in extracting specific information from text matched by a regex.

### Summary of Useful Functions for Regular Expressions

When working with regular expressions in Python, you can utilize several built-in functions provided by the `re` module. Here's an overview of these functions and what they do:

- **`re.match(pattern, string)`**: This function checks if the regex pattern matches at the beginning of the input string. It returns a match object if a match is found at the start of the string or `None` otherwise.

- **`re.search(pattern, string)`**: This function scans through a string, looking for any location where the regex pattern matches. It returns a match object for the first occurrence found or `None` if no match is found.

- **`re.findall(pattern, string)`**: This function finds all non-overlapping substrings where the regex pattern matches in the input string and returns them as a list.

- **`re.finditer(pattern, string)`**: This function finds all non-overlapping substrings where the regex pattern matches in the input string and returns them as an iterator.

These functions are essential for various text processing tasks, enabling you to search for and manipulate patterns within strings efficiently.


### Use case examples using regular expressions

In [None]:
def check_sentences(pattern, sentences):
    """
    Check sentences against the provided regular expression pattern.

    Args:
        pattern (str): The regular expression pattern to match against.
        sentences (list of tuple): A list of tuples where each tuple contains a sentence and an expected result (True or False).

    Returns:
        None

    Prints:
        Feedback for each sentence based on whether it matches the pattern or not.
    """

    for sentence, expected_result in sentences:
        # Check if the pattern matches the entire string and compare it to the expected result.
        is_match = bool(re.match(pattern, sentence))

        # Determine if the result matches the expected outcome.
        is_valid = is_match == expected_result

        # Print feedback based on the match and validity.
        if is_valid:
            result_message = 'Pass'
        else:
            result_message = 'Not Pass'

        validity_message = '(Valid)' if expected_result else '(Not Valid)'
        print(f'{result_message} --> {sentence} {validity_message}')

**Explicación de la Función `check_sentences`**

La función `check_sentences` está diseñada para evaluar una lista de oraciones en comparación con un patrón de expresión regular proporcionado y ofrecer retroalimentación sobre si cada oración coincide con el patrón como se espera.

**Parámetros de la Función**

- `pattern`: Este parámetro representa el patrón de expresión regular con el que se comparará cada oración.

- `sentences`: Este parámetro es una lista de tuplas donde cada tupla contiene una oración y un resultado esperado (Verdadero o Falso). El resultado esperado indica si se espera que la oración coincida con el patrón o no.

**Propósito de la Función**

El propósito principal de esta función es verificar cada oración en la lista `sentences` contra el patrón de expresión regular proporcionado y ofrecer retroalimentación basada en si la coincidencia es como se espera. Asiste en validar si las oraciones se ajustan a un patrón particular.

**Ejecución de la Función**

1. La función itera a través de cada tupla en la lista `sentences`, extrayendo la oración y su resultado esperado asociado.

2. Para cada oración, utiliza la función `re.match()` para determinar si el patrón de expresión regular proporcionado coincide con toda la oración. El resultado de esta coincidencia se almacena en una variable.

3. La función luego evalúa si la coincidencia es válida comparándola con el resultado esperado. Si la coincidencia y el resultado esperado coinciden, la oración se considera válida; de lo contrario, no es válida.

4. Basado en la validez de la coincidencia, la función asigna un mensaje de resultado como "Aprobado" o "No Aprobado" para retroalimentación.

5. La función también determina si la oración es "Válida" o "No Válida" basada en el resultado esperado y prepara un mensaje de validez.

6. Finalmente, la función imprime retroalimentación para cada oración, indicando si pasó o no, junto con la oración misma y si se considera válida o no válida.

**Salida de la Función**

La función imprime mensajes de retroalimentación para cada oración, proporcionando información sobre si cada oración se ajusta al patrón de expresión regular especificado. Esta retroalimentación asiste en la validación y verificación de datos de texto contra un patrón definido.

La función `check_sentences` es una herramienta valiosa para tareas de control de calidad y validación que involucran datos de texto, permitiendo la evaluación de la integridad de los datos contra patrones o reglas predefinidas.

#### 1. Identificar archivos mediante extensiones de archivo
<p>Una expresión regular para comprobar las extensiones de archivo.</p>

In [None]:
import re

# Define un patrón regex para coincidir con nombres de archivos con extensiones específicas (gif, jpeg, jpg, TIF).
pattern = r'[\w]+\.(gif|jpeg|jpg|TIF)$'

# Define una lista de oraciones para ser comprobadas contra el patrón, junto con sus resultados esperados.
sentences = [('test.gif', True), 
            ('image.jpeg', True),
            ('image.jpg', True),
            ('image.TIF', True),
            ('test', False),
            ('test.pdf', False),
            ('test.gif.gif', False)]

# Llama a la función check_sentences con el patrón y las oraciones para realizar las comprobaciones.
check_sentences(pattern, sentences)

### Comprobación de números
#### 2. Enteros positivos

In [None]:
# Define a regex pattern to match strings consisting of one or more digits.
pattern = r'\d*$'

# Define a list of sentences to be checked against the pattern, along with their expected results.
sentences = [('123', True), 
            ('1', True),
            ('abc', False),
            ('1.1', False)]

# Call the check_sentences function with the pattern and sentences to perform the checks.
check_sentences(pattern, sentences)

##### 3. Enteros negativos

In [None]:
# Define un patrón regex para coincidir con cadenas que consisten en uno o más dígitos.
pattern = r'\d+$'

# Define una lista de oraciones para ser comprobadas contra el patrón, junto con sus resultados esperados.
sentences = [('123', True), 
            ('1', True),
            ('abc', False),
            ('1.1', False)]

# Llama a la función check_sentences con el patrón y las oraciones para realizar las comprobaciones.
check_sentences(pattern, sentences)

##### 4. Todos los enteros

In [None]:
# Define un patrón de expresión regular para coincidir con cadenas que pueden comenzar con un guion opcional seguido de uno o más dígitos al final.
pattern = r'-?\d+$'

# Crea una lista de oraciones, cada una con un resultado esperado asociado (Verdadero o Falso).
sentences = [('-123', True),
            ('-1', True),
            ('123', True),
            ('123.0', False),
            ('-abc', False),
            ('-1.1', False)]

# Llama a la función check_sentences con el patrón y las oraciones para realizar las comprobaciones.
check_sentences(pattern, sentences)

##### 5. Enteros positivos

In [None]:
# Define un patrón de expresión regular para coincidir con cadenas que representen números decimales.
pattern = r'\d*\.?\d+$'

# Crea una lista de oraciones, cada una con un resultado esperado asociado (Verdadero o Falso).
sentences = [('1', True),
            ('123', True),
            ('1.234', True),
            ('0.2', True),
            ('.2', True),
            ('-123.0', False),
            ('-abc', False),
            ('-123.1', False)]

# Imprime el patrón que se usa para la coincidencia.
print("PATRÓN:", pattern)

# Llama a la función check_sentences con el patrón y las oraciones para realizar las comprobaciones.
check_sentences(pattern, sentences)

##### 6. Numeros negativos

In [None]:
# Define un patrón de expresión regular para coincidir con cadenas que representen números decimales negativos.
pattern = r'-\d*\.?\d+$'

# Crea una lista de oraciones, cada una con un resultado esperado asociado (Verdadero o Falso).
sentences = [('-1', True),
            ('-123', True),
            ('-1.234', True),
            ('123', False),
            ('-abc', False),
            ('123.1', False)]

# Llama a la función check_sentences con el patrón y las oraciones para realizar las comprobaciones.
check_sentences(pattern, sentences)

##### 7. Todos los numeros

In [None]:
# Definir un patrón de expresión regular para coincidir con cadenas que representen números decimales, incluido el signo negativo opcional.
patron = r'-?\d*\.?\d+$'

# Crear una lista de frases, cada una con un resultado esperado asociado (Verdadero o Falso).
frases = [('1', True),
          ('123', True),
          ('1.234', True),
          ('-234', True),
          ('-1.234', True),
          ('a', False),
          ('-abc', False),
          ('a1', False)]

# Llamar a la función check_sentences con el patrón y las frases para realizar las comprobaciones.
check_sentences(patron, frases)

#### 8. Validación de nombre de usuario
<p>Comprobación de un nombre de usuario válido que tenga una cierta longitud mínima y máxima.</p>
<p>Caracteres permitidos:</p>
<ul>
<li>letras (mayúsculas y minúsculas)</li>
<li>números</li>
<li>guiones</li>
<li>guiones bajos</li>

In [None]:
min_len = 5 # longitud mínima para un nombre de usuario válido
max_len = 15 # longitud máxima para un nombre de usuario válido

patron = r'[\w_-]{5,15}$'

frases = [('user123', True), ('123_user', True), ('Username', True),
          ('user', False), ('username1234_is-way-too-long', False), ('user$34354', False)]

check_sentences(patron, frases)

#### 9. Comprobación de direcciones de correo electrónico válidas
Una expresión regular que captura la mayoría de las direcciones de correo electrónico.

In [None]:
pattern = r'(^(?i)(\w+\.|\w+-)*\w+@(\w+\.|\w+-)*\w+\.[a-z]{2,3}$)'

sentences = [('l-l.l@mail.Aom.PP',True), ('ds@mail.com', True),
            ('testmail.com',False),('test@mail.com.',False),('@testmail.com',False),('test@mailcom',False)]

check_sentences(pattern,sentences)

### Desafíos de casos de uso utilizando expresiones regulares
#### 1. Validación de fechas y horas
Valida fechas en formato mm/dd/aaaa. Nota: Algunas fechas no se verifican, como 2080, para ser inválidas.

In [None]:
pattern = r''

sentences = [('01/08/2014',True), ('12/30/2014', True),
            ('22/08/2014',False),('-123',False),('1/8/2014',False),('1/08/2014',False),('01/8/2014',False)]

check_sentences(pattern,sentences)

#### 2. 12-Hour format

In [None]:
pattern = r''



sentences = [('2:00pm',True), ('7:30 AM', True), ('12:05 am', True),
            ('22:00pm',False),('14:00',False),('3:12',False),('03:12pm',False)]

check_sentences(pattern,sentences)

#### 3. 24-Hour format

In [None]:
pattern = r''


sentences = [('14:00',True), ('00:30', True), 
            ('22:00pm',False),('4:00',False),('03:12pm',False)]

check_sentences(pattern,sentences)

#### 4. Checking HTML/XML, etc. tags (approach simple)

In [None]:
pattern = r''

sentences = [('<a>',True), ('<a href="somethinG">', True),  ('</a>', True),  ('<img src>', True), 
            ('a>',False),('<a',False),('< a >',False)]

check_sentences(pattern,sentences)

#### 5. ID/Passport/NIF

In [None]:
pattern = r''


sentences = [('12345678D',True), ('X1234567F', True), 
             ('123456F',False),('X12367F',False),('123Ff456F',False)]


check_sentences(pattern,sentences)

#### 6. Nombres de sitios web
Define el patrón para detectar si una cadena corresponde al nombre de un sitio web. El patrón sigue estas reglas:
* Puede comenzar con tres "w" o directamente con el nombre del dominio.
* Le sigue el nombre del dominio, que puede contener letras y números.
* Puede tener un máximo de 2 subdominios (compuestos por letras y números).
* Termina con un punto seguido de 2 o 3 letras.

Deberías detectar los siguientes casos:
* Positivos:
    * www.ds.com
    * www.data.science.com
    * datascience.com
    * wab.a.com
* Negativos:
    * ww.4com
    * www.ww.a
    * www.d.s.c.d.com

In [None]:
pattern = ''


sentences = [('www.ds.com',True), ('www.data.science.com', True),  ('datascience.com', True),  ('data.sc.com', True), 
            ('ww.4com',False),('www.ww.a',False),('www.d.s.c.d.com',False)]


check_sentences(pattern,sentences)

## Soluciones

In [None]:
# Define regex patterns for each exercise
pattern1 = r'\w+@\w+\.\w+'
pattern2 = r'\d{2}/\d{2}/\d{4}'
pattern3 = r'https?://\S+'
pattern4 = r'\(\d{3}\) \d{3}-\d{4}'
pattern5 = r'\w+-\w+'
pattern7 = r'\d{2}/\d{2}/\d{4}'
pattern8 = r'#\w+'
pattern9 = r'@\w+'
pattern10 = r'\(?\+\d{1,2}\)? \d{3}-\d{4}'