## Expresiones regulares

Una de las herramientas más útiles para el procesamiento de texto en informática ha sido la expresión regular (a menudo abreviada como regex), un lenguaje para especificar cadenas de búsqueda de texto. Formalmente, una expresión regular es una notación algebraica para caracterizar un conjunto de cadenas. 

Las expresiones regulares son particularmente útiles para buscar en textos cuando tenemos un patrón que queremos buscar y un corpus de textos para buscarlo. Una función de búsqueda de expresiones regulares buscará en el corpus, devolviendo todos los textos que coincidan con el patrón. El corpus puede ser un solo documento o una colección. Por ejemplo, la herramienta de línea de comandos de Unix `grep` toma una expresión regular y devuelve cada línea del documento de entrada que coincida con la expresión.

Una búsqueda puede estar diseñada para devolver todas las coincidencias en una línea, si hay más de una, o solo la primera coincidencia.


**Patrones básicos de expresiones regulares**
El tipo más simple de expresión regular es una secuencia de caracteres simples; poner caracteres en secuencia se llama concatenación. Para buscar "woodchuck", escribimos `/woodchuck/`. La expresión `/Buttercup/` coincide con cualquier cadena que contenga la subcadena Buttercup; `grep` con esa expresión devolvería la línea *I'm called little Buttercup*. La cadena de búsqueda puede consistir en un solo carácter (como `/!/`) o en una secuencia de caracteres (como `/urgl/`).

Las expresiones regulares distinguen entre mayúsculas y minúsculas; la `/s/` en minúscula es distinta de la `/S/` en mayúscula (`/s/` coincide con una `s` en minúscula pero no con una `S` en mayúscula). Esto significa que el patrón `/woodchucks/` no coincidirá con la cadena Woodchucks. Podemos resolver este problema con el uso de los corchetes `[` y `]`. La cadena de caracteres dentro de los corchetes especifica una disyunción de caracteres para coincidir. 

A continuación se muestra que el patrón `/[wW]/` coincide con patrones que contienen ya sea "w" o "W".

| **Regex**           | **Coincidencia**             | **Ejemplos de patrones**            |
|---------------------|-----------------------------|-------------------------------------|
| `/[wW]oodchuck/`    | Woodchuck o woodchuck        | “Woodchuck”                         |
| `/[abc]/`           | ‘a’, ‘b’ o ‘c’               | “In uomini, in soldati”             |
| `/[1234567890]/`    | cualquier dígito             | “plenty of 7 to 5”                  |


El uso de los corchetes `[]` para especificar una disyunción de caracteres.


In [None]:
import re

# Ejemplo 1: Buscar "woodchucks"
text1 = "interesting links to woodchucks and lemurs"
pattern1 = re.compile(r'woodchucks')
matches1 = pattern1.findall(text1)
print("Coincidencias para 'woodchucks':", matches1)

# Ejemplo 2: Buscar "a"
text2 = "Mary Ann stopped by Mona’s"
pattern2 = re.compile(r'a')
matches2 = pattern2.findall(text2)
print("Coincidencia para 'a':", matches2)

# Ejemplo 3: Buscar "!"
text3 = "You’ve left the burglar behind again!"
pattern3 = re.compile(r'!')
matches3 = pattern3.findall(text3)
print("Coincidencia para '!':", matches3)


In [None]:
import re

# Ejemplo 1: Buscar "woodchuck" o "Woodchuck"
text1 = "Woodchuck"
pattern1 = re.compile(r'[wW]oodchuck')
matches1 = pattern1.findall(text1)
print("Coincidencia para '[wW]oodchuck':", matches1)

# Ejemplo 2: Buscar 'a', 'b', o 'c'
text2 = "In uomini, in soldati"
pattern2 = re.compile(r'[abc]')
matches2 = pattern2.findall(text2)
print("Coincidencia para '[abc]':", matches2)

# Ejemplo 3: Buscar cualquier dígito
text3 = "plenty of 7 to 5"
pattern3 = re.compile(r'[1234567890]')
matches3 = pattern3.findall(text3)
print("Coincidencia para '[1234567890]':", matches3)



La expresión regular `/[1234567890]/` especifica cualquier dígito único. Aunque clases de caracteres como dígitos o letras son bloques de construcción importantes en las expresiones, pueden volverse incómodas (por ejemplo, es inconveniente especificar `/[ABCDEFGHIJKLMNOPQRSTUVWXYZ]/` para indicar "cualquier letra mayúscula"). 

En casos donde hay una secuencia bien definida asociada con un conjunto de caracteres, los corchetes se pueden usar con el guion (-) para especificar cualquier carácter en un rango. El patrón `/[2-5]/` especifica cualquiera de los caracteres 2, 3, 4 o 5. El patrón `/[b-g]/` especifica uno de los caracteres b, c, d, e, f o g. Algunos otros ejemplos se muestran aquí:


| **Regex**           | **Coincidencia**             | **Ejemplos de patrones coincidentes**               |
|---------------------|-----------------------------|-----------------------------------------------------|
| `/[A-Z]/`           | una letra mayúscula          | “we should call it ‘Drenched Blossoms’”             |
| `/[a-z]/`           | una letra minúscula          | “my beans were impatient to be hoed!”               |
| `/[0-9]/`           | un solo dígito               | “Chapter 1: Down the Rabbit Hole”                   |


El uso de los corchetes `[]` más el guion `-` para especificar un rango.



In [None]:
import re

# Ejemplo 1: Buscar una letra mayúscula
text1 = "we should call it ‘Drenched Blossoms’"
pattern1 = re.compile(r'[A-Z]')
matches1 = pattern1.findall(text1)
print("Matches for '[A-Z]':", matches1)

# Ejemplo 2: Buscar una letra minúscula
text2 = "my beans were impatient to be hoed!"
pattern2 = re.compile(r'[a-z]')
matches2 = pattern2.findall(text2)
print("Matches for '[a-z]':", matches2)

# Ejemplo 3: Buscar un solo dígito
text3 = "Chapter 1: Down the Rabbit Hole"
pattern3 = re.compile(r'[0-9]')
matches3 = pattern3.findall(text3)
print("Matches for '[0-9]':", matches3)


Los corchetes también se pueden usar para especificar lo que un solo carácter no puede ser, utilizando el acento circunflejo `^`. Si el acento circunflejo `^` es el primer símbolo después del corchete abierto `[`, el patrón resultante se niega. Por ejemplo, el patrón `/[^a]/` coincide con cualquier carácter único (incluidos los caracteres especiales) excepto con la "a". Esto es cierto solo cuando el acento circunflejo es el primer símbolo después del corchete abierto. Si ocurre en cualquier otro lugar, generalmente representa un acento circunflejo; el cuadro muestra algunos ejemplos:

| **Regex**           | **Coincidencia (caracteres individuales)** | **Ejemplos de patrones coincidentes** |
|---------------------|--------------------------------------------|---------------------------------------|
| `/[^A-Z]/`          | no una letra mayúscula                     | “Oyfn pripetchik”                     |
| `/[^Ss]/`           | ni ‘S’ ni ‘s’                              | “I have no exquisite reason for’t”    |
| `/[^.]/`            | no un punto                                | “our resident Djinn”                  |
| `/[eˆ]/`            | ‘e’ o ‘ˆ’                                  | “look up ˆ now”                       |
| `/aˆb/`             | el patrón ‘aˆb’                            | “look up aˆb now”                     |

El acento circunflejo `^` para la negación o simplemente para significar `^`.


In [None]:
import re

# Ejemplo 1: No una letra mayúscula
text1 = "Oyfn pripetchik"
pattern1 = re.compile(r'[^A-Z]')
matches1 = pattern1.findall(text1)
print("Coincidencias para '[^A-Z]':", matches1)

# Ejemplo 2: No 'S' ni 's'
text2 = "I have no exquisite reason for t"
pattern2 = re.compile(r'[^Ss]')
matches2 = pattern2.findall(text2)
print("Coincidencias para '[^Ss]':", matches2)

# Ejemplo 3: No un punto
text3 = "our resident Djinn"
pattern3 = re.compile(r'[^.]')
matches3 = pattern3.findall(text3)
print("Coincidencias para '[^.]':", matches3)

# Ejemplo 4: 'e' o 'ˆ'
text4 = "look up ˆ now"
pattern4 = re.compile(r'[eˆ]')
matches4 = pattern4.findall(text4)
print("Coincidencias para '[eˆ]':", matches4)

# Ejemplo 5: El patrón 'aˆb'
text5 = "look up aˆb now"
pattern5 = re.compile(r'aˆb')
matches5 = pattern5.findall(text5)
print("Coincidencias para 'aˆb':", matches5)



¿Cómo podemos hablar sobre elementos opcionales, como una "s" opcional en woodchuck y woodchucks? No podemos usar corchetes, porque aunque permiten decir “s o S”, no permiten decir “s o nada”. Para esto usamos el signo de interrogación `/?/`, que significa "el carácter anterior o nada", como se muestra en la tabla siguiente:

| **Regex**           | **Coincidencia**               | **Ejemplos de patrones coincidentes** |
|---------------------|--------------------------------|---------------------------------------|
| `/woodchucks?/`     | woodchuck o woodchucks         | “woodchuck”                           |
| `/colou?r/`         | color o colour                 | “color”                               |

El signo de interrogación `?` marca la opcionalidad de la expresión anterior.

In [None]:
import re

# Ejemplo 1: "woodchuck" o "woodchucks"
text1 = "woodchuck"
pattern1 = re.compile(r'woodchucks?')
matches1 = pattern1.findall(text1)
print("Coindencias para 'woodchucks?':", matches1)

# Ejemplo 2: "color" o "colour"
text2 = "color"
pattern2 = re.compile(r'colou?r')
matches2 = pattern2.findall(text2)
print("Coincidencias para'colou?r':", matches2)


A veces es molesto tener que escribir la expresión regular para los dígitos dos veces, por lo que hay una forma más corta de especificar “al menos uno” de algún carácter. Este es el Kleene `+`, que significa “una o más ocurrencias del carácter o expresión regular inmediatamente anterior”. Así, la expresión `/[0-9]+/` es la forma normal de especificar “una secuencia de dígitos”. Por lo tanto, hay dos formas de especificar el lenguaje de las ovejas: `/baaa*!/` o `/baa+!/`.

Un carácter especial muy importante es el punto (`.`), una expresión comodín que coincide con cualquier carácter individual (excepto un retorno de carro), como se muestra en la tabla:

| **Regex**           | **Coincidencia**                          | **Ejemplos de coincidencias**     |
|---------------------|-------------------------------------------|-----------------------------------|
| `/beg.n/`           | cualquier carácter entre beg y n          | begin, beg’n, begun               |


El uso del punto `.` para especificar cualquier carácter.

El comodín se usa a menudo junto con Kleene `*`  para significar “cualquier cadena de caracteres”. Por ejemplo, supongamos que queremos encontrar cualquier línea en la que aparezca una palabra en particular, por ejemplo, "aardvark", dos veces. Podemos especificar esto con la expresión regular `/aardvark.*aardvark/`.

In [None]:
import re

# Ejemplo: cualquier carácter entre "beg" y "n"
text1 = "begin, beg’n, begun"
pattern1 = re.compile(r'beg.n')
matches1 = pattern1.findall(text1)
print("Coincidencias para 'beg.n':", matches1)


In [None]:
import re

# Ejemplo de texto
text = """
The aardvark is a nocturnal mammal native to Africa.
The aardvark is also known as the African antbear or the Cape anteater.
There are two aardvarks here, one aardvark and another aardvark.
Aardvarks are interesting creatures, and some people really like aardvarks.
"""

# Expresión regular para encontrar líneas con "aardvark" dos veces
pattern = re.compile(r'aardvark.*aardvark')

# Buscar coincidencias en cada línea del texto
lines = text.splitlines()
for line in lines:
    if pattern.search(line):
        print("Coincidencias encontrada:", line)


Los **anclajes** son caracteres especiales que anclan expresiones regulares a lugares particulares en una cadena. Los anclajes más comunes son el acento circunflejo `^` y el signo de dólar `$`. El acento circunflejo `^` coincide con el comienzo de una línea. El patrón `/^The/` coincide con la palabra "The" solo al comienzo de una línea. Así, el acento circunflejo `^` tiene tres usos: coincidir con el comienzo de una línea, indicar una negación dentro de corchetes y simplemente significar un acento circunflejo. (¿Cuáles son los contextos que permiten a grep o Python saber qué función se supone que debe tener un acento circunflejo dado?). El signo de dólar `$` coincide con el final de una línea. Así que el patrón `$` es un patrón útil para coincidir con un espacio al final de una línea, y `/^The dog\.$/` coincide con una línea que contiene solo la frase "The dog". (Tenemos que usar la barra invertida aquí porque queremos que `.` signifique "punto" y no el comodín).

| **Regex** | **Coincidencia**        |
|-----------|-------------------------|
| `^`       | inicio de línea          |
| `$`       | final de línea           |
| `\b`      | límite de palabra        |
| `\B`      | no límite de palabra     |


In [None]:
import re

# Ejemplo 1: Usando `^` para coincidir con el comienzo de una línea
text1 = "The quick brown fox jumps over the lazy dog."
pattern1 = re.compile(r'^The')
match1 = pattern1.findall(text1)
print("Coincidencias para '^The':", match1)  # Esto coincidirá porque la línea comienza con "The"

# Ejemplo 2: Usando `$` para coincidir con el final de una línea
text2 = "The quick brown fox jumps over the lazy dog."
pattern2 = re.compile(r'dog\.$')
match2 = pattern2.findall(text2)
print("Coincidencias para 'dog\\.$':", match2)  # Esto coincidirá porque la línea termina con "dog."

# Ejemplo 3: Usando `\b` para coincidir con un límite de palabra
text3 = "There are 99 bottles of beer on the wall."
pattern3 = re.compile(r'\b99\b')
match3 = pattern3.findall(text3)
print("Coindencia para '\\b99\\b':", match3)  # Esto coincidirá porque "99" es una palabra completa

# Ejemplo 4: Usando `\B` para coincidir con no límite de palabra
text4 = "There are 299 bottles of beer on the wall."
pattern4 = re.compile(r'\B99')
match4 = pattern4.findall(text4)
print("Coincidencia para '\\B99':", match4)  # Esto coincidirá con "99" dentro de "299"


También hay otros dos anclajes: `\b` coincide con un límite de palabra, y `\B` coincide con un no límite de palabra. Por lo tanto, `/\bthe\b/` coincide con la palabra "the" pero no con la palabra "other". Una "palabra" a los efectos de una expresión regular se define en función de la definición de palabras en los lenguajes de programación como una secuencia de dígitos, guiones bajos o letras. Así, `/\b99\b/` coincidirá con la cadena "99" en "There are 99 bottles of beer on the wall" (porque "99" sigue a un espacio) pero no "99" en "There are 299 bottles of beer on the wall" (ya que "99" sigue a un número). Pero coincidirá con "99" en "$99" (ya que "99" sigue a un signo de dólar `$`, que no es un dígito, guion bajo o letra).


In [None]:
import re

# Ejemplo 1: Usando \b para coincidir con un límite de palabra
text1 = "The word 'the' is common, but it is not the same as 'other'."
pattern1 = re.compile(r'\bthe\b')
match1 = pattern1.findall(text1)
print("Coincidencias para '\\bthe\\b':", match1)  # Esto coincidirá con "the" pero no con "other"

# Ejemplo 2: Usando \B para coincidir con no límite de palabra
text2 = "The word 'other' contains 'the', but it should not be matched as a separate word."
pattern2 = re.compile(r'\Bthe\B')
match2 = pattern2.findall(text2)
print("Coincidencias para'\\Bthe\\B':", match2)  # Esto coincidirá con "the" dentro de "other" pero no con "the" solo

# Ejemplo 3: Usando \b para coincidir con "99" como una palabra completa
text3 = "There are 99 bottles of beer on the wall."
pattern3 = re.compile(r'\b99\b')
match3 = pattern3.findall(text3)
print("Coincidencia para  '\\b99\\b' in 'There are 99 bottles of beer on the wall':", match3)  # Esto coincidirá con "99"

# Ejemplo 4: Usando \b para no coincidir con "99" cuando está dentro de otro número
text4 = "There are 299 bottles of beer on the wall."
pattern4 = re.compile(r'\b99\b')
match4 = pattern4.findall(text4)
print("Coincidencia para '\\b99\\b' in 'There are 299 bottles of beer on the wall':", match4)  # Esto no coincidirá con "99"

# Ejemplo 5: Usando \b para coincidir con "99" después de un signo de dólar
text5 = "The price is $99."
pattern5 = re.compile(r'\b99\b')
match5 = pattern5.findall(text5)
print("Coincidencia para '\\b99\\b' in 'The price is $99':", match5)  # Esto coincidirá con "99" después del signo de dólar


**2.1.2 Disyunción, agrupación y precedencia**
Supongamos que necesitamos buscar textos sobre mascotas; tal vez nos interesen particularmente los gatos y los perros. En tal caso, podríamos querer buscar ya sea la cadena "cat" o la cadena "dog". Dado que no podemos usar los corchetes para buscar "cat o dog" (¿por qué no podemos decir `/[catdog]/`?), necesitamos un nuevo operador, el operador de disyunción, también llamado el símbolo de barra vertical `|`. El patrón `/cat|dog/` coincide con la cadena "cat" o "dog".

A veces necesitamos usar este operador de disyunción en medio de una secuencia más grande. Por ejemplo, supongamos que quiero buscar información sobre peces mascota para mi primo David. ¿Cómo puedo especificar tanto "guppy" como "guppies"? No podemos simplemente decir `/guppy|ies/`, porque eso coincidiría solo con las cadenas "guppy" y "ies". Esto se debe a que secuencias como "guppy" tienen precedencia sobre el operador de disyunción |. Para hacer que el operador de disyunción se aplique solo a un patrón específico, necesitamos usar los operadores de paréntesis ( y ). 

Encerrar un patrón entre paréntesis hace que actúe como un solo carácter para los operadores vecinos como la barra | y el asterisco de Kleene (*). Así que el patrón `/gupp(y|ies)/` especificaría que nos referimos a la disyunción solo en los sufijos y e ies.

El operador parentesis `(` también es útil cuando estamos usando contadores como Kleene *. A diferencia del operador |, Kleene *  aplica por defecto solo a un solo carácter, no a toda una secuencia. Supongamos que queremos coincidir con instancias repetidas de una cadena. Tal vez tengamos una línea que tenga etiquetas de columnas en la forma *Column 1 Column 2 Column 3*. La expresión `/Column [0-9]+ */` no coincidirá con varias columnas; en cambio, coincidirá con una sola columna seguida de cualquier número de espacios. El asterisco aquí se aplica solo al espacio que lo precede, no a toda la secuencia. Con los paréntesis, podríamos escribir la expresión `/(Column [0-9]+ *)*/` para coincidir con la palabra "Column", seguida de un número y espacios opcionales, repitiendo todo el patrón cero o más veces.




In [None]:
import re

# Texto de ejemplo
text1 = "I have a cat and a dog."

# Expresión regular para coincidir con "cat" o "dog"
pattern1 = re.compile(r'cat|dog')
matches1 = pattern1.findall(text1)
print("Coincidencia para 'cat|dog':", matches1)  # Coincidirá con "cat" y "dog"



In [None]:
# Texto de ejemplo
text2 = "I have a guppy and several guppies."

# Expresión regular para coincidir con "guppy" o "guppies"
pattern2 = re.compile(r'gupp(y|ies)')
matches2 = pattern2.findall(text2)
print("Coincidencias para 'gupp(y|ies)':", matches2)  # Coincidirá con "guppy" y "guppies"


In [None]:
# Texto de ejemplo
text3 = "Column 1 Column 2 Column 3 Column 4"

# Expresión regular para coincidir con múltiples columnas
pattern3 = re.compile(r'(Column [0-9]+ *)*')
matches3 = pattern3.findall(text3)
print("Matches for '(Column [0-9]+ *)*':", matches3)  # Coincidirá con todas las columnas


Esta idea de que un operador puede tener precedencia sobre otro, lo que nos obliga a veces a usar paréntesis para especificar lo que queremos decir, se formaliza en la jerarquía de precedencia de operadores para expresiones regulares. La siguiente tabla muestra el orden de precedencia de operadores de RE, de mayor a menor precedencia.

**Jerarquía de Precedencia de Operadores**

1. Paréntesis ()
2. Contadores `* + ? {}`
3. Secuencias y anclajes `ˆmy end$`
4. Disyunción `|`

Así, debido a que los contadores tienen mayor precedencia que las secuencias, `/the*/` coincide con "theeeee" pero no con "thethe". Debido a que las secuencias tienen mayor precedencia que la disyunción, `/the|any/` coincide con "the" o "any" pero no con "thany" o "theny".

Los patrones pueden ser ambiguos de otra manera. Considera la expresión `/[a-z]*/` al coincidir contra el texto *once upon a time*. Dado que `/[a-z]*/` coincide con cero o más letras, esta expresión podría coincidir con nada, o solo con la primera letra "o", "on", "onc", o "once". En estos casos, las expresiones regulares siempre coinciden con la cadena más grande que puedan; decimos que los patrones son codiciosos, expandiéndose para cubrir la mayor cantidad de cadena que puedan.

Sin embargo, existen formas de imponer coincidencias no codiciosas, utilizando otro significado del calificador `?`. El operador `*?` es un asterisco de Kleene que coincide con la menor cantidad de texto posible. El operador `+?` es un más de Kleene que coincide con la menor cantidad de texto posible.



**Más Operadores**

La tabla siguiente muestra algunos alias para rangos comunes, que pueden usarse principalmente para ahorrar tiempo al escribir. Además del asterisco de Kleene (*) y el más de Kleene (+), también podemos usar números explícitos como contadores, encerrándolos en llaves. El operador `/{3}/` significa "exactamente 3 ocurrencias del carácter o expresión anterior". Así que `/a\.{24}z/` coincidirá con "a" seguido de 24 puntos seguido de "z" (pero no con "a" seguido de 23 o 25 puntos seguido de "z").


| Regex | Expansión | Coincidencia | Primeras coincidencias |
|-------|-----------|--------------|------------------------|
| `\d`  | `[0-9]`   | cualquier dígito | *Party of 5*           |
| `\D`  | `[ˆ0-9]`  | cualquier no dígito | *Blue moon*         |
| `\w`  | `[a-zA-Z0-9_]` | cualquier alfanumérico o guion bajo | *Daiyu* |
| `\W`  | `[ˆ\w]`   | un no alfanumérico | *!!!!*               |
| `\s`  | `[ \r\t\n\f]` | espacio en blanco (espacio, tabulación) | *in Concord* |
| `\S`  | `[ˆ\s]`   | no espacio en blanco | *in Concord*      |

Un rango de números también puede especificarse. Así que `/{n,m}/` especifica de n a m ocurrencias del carácter o expresión anterior, y `/{n,}/` significa al menos n ocurrencias de la expresión anterior. Las REs para contar se resumen aquí.


| Regex | Coincidencia |
|-------|--------------|
| `*`   | cero o más ocurrencias del carácter o expresión anterior |
| `+`   | una o más ocurrencias del carácter o expresión anterior  |
| `?`   | cero o una ocurrencia del carácter o expresión anterior  |
| `{n}` | exactamente n ocurrencias del carácter o expresión anterior |
| `{n,m}` | de n a m ocurrencias del carácter o expresión anterior |
| `{n,}` | al menos n ocurrencias del carácter o expresión anterior |
| `{,m}` | hasta m ocurrencias del carácter o expresión anterior |

Finalmente, ciertos caracteres especiales se refieren mediante una notación especial basada en la barra invertida (\) (ver la siguiente tabla). Los más comunes son el carácter de nueva línea `\n` y el carácter de tabulación `\t`. Para referirse a caracteres que son especiales por sí mismos (como `.`, `*`, `[`, y `\`), se antepone una barra invertida (es decir, `/\./`, `/\*/`, `/\[/`, y `/\\/`).


| Regex | Coincidencia | Primeras coincidencias |
|-------|--------------|------------------------|
| `\*`  | un asterisco "*" | *K*A*P*L*A*N* |
| `\.`  | un punto "." | *Dr. Livingston, I presume* |
| `\?`  | un signo de interrogación "?" | *Why don’t they come and lend a hand?* |
| `\n`  | una nueva línea |
| `\t`  | una tabulación |



**Uso de alias para rangos comunes**

In [None]:
import re

# Texto de ejemplo
text = "Party of 5, Blue moon, Daiyu, !!!!, in Concord"

# Usando \d para encontrar cualquier dígito
print("Coincidencias para \\d:", re.findall(r'\d', text))

# Usando \D para encontrar cualquier no dígito
print("Coincidencias para \\D:", re.findall(r'\D+', text))

# Usando \w para encontrar cualquier alfanumérico o guion bajo
print("Coincidencias para \\w:", re.findall(r'\w+', text))

# Usando \W para encontrar un no alfanumérico
print("Coincidencias para \\W:", re.findall(r'\W+', text))

# Usando \s para encontrar espacios en blanco (espacios, tabulaciones, saltos de línea)
print("Coincidencias para \\s:", re.findall(r'\s', text))

# Usando \S para encontrar no espacios en blanco
print("Coincidencias para \\S:", re.findall(r'\S+', text))


**Uso de contadores en expresiones regulares**

In [None]:
import re

# Texto de ejemplo
text = "aaa aa aaaaaaa"

# Usando * para encontrar cero o más ocurrencias del carácter o expresión anterior
print("Coincidencias para a*:", re.findall(r'a*', text))

# Usando + para encontrar una o más ocurrencias del carácter o expresión anterior
print("Coincidencias para a+:", re.findall(r'a+', text))

# Usando ? para encontrar cero o una ocurrencia del carácter o expresión anterior
print("Coincidencias para a?:", re.findall(r'a?', text))

# Usando {n} para encontrar exactamente n ocurrencias del carácter o expresión anterior
print("Coincidencias para a{3}:", re.findall(r'a{3}', text))

# Usando {n,m} para encontrar de n a m ocurrencias del carácter o expresión anterior
print("Coincidencias para a{2,4}:", re.findall(r'a{2,4}', text))

# Usando {n,} para encontrar al menos n ocurrencias del carácter o expresión anterior
print("Coincidencias para a{4,}:", re.findall(r'a{4,}', text))

# Usando {,m} para encontrar hasta m ocurrencias del carácter o expresión anterior
print("Coincidencias para a{,2}:", re.findall(r'a{,2}', text))


**Caracteres especiales escapados**

In [None]:
import re

# Texto de ejemplo
text = "K*A*P*L*A*N* Dr. Livingston, I presume Why don’t they come and lend a hand?"

# Usando \* para encontrar un asterisco "*"
print("Coincidencias para \\*:", re.findall(r'\*', text))

# Usando \. para encontrar un punto "."
print("Coincidencias para \\.:", re.findall(r'\.', text))

# Usando \? para encontrar un signo de interrogación "?"
print("Coincidencias para \\?:", re.findall(r'\?', text))


**Aserciones de anticipación**

Finalmente, habrá momentos en los que necesitaremos predecir el futuro: mirar hacia adelante en el texto para ver si algún patrón coincide, pero no avanzar aún el puntero que siempre mantenemos para saber dónde estamos en el texto, de modo que si el patrón ocurre, podamos lidiar con él, pero si no ocurre, podamos comprobar algo más en su lugar.

Estas aserciones de anticipación (lookahead) hacen uso de la sintaxis (?= para los grupos no capturadores. El operador (?=pattern) es verdadero si el patrón ocurre, pero tiene un ancho cero, es decir, el puntero de coincidencia no avanza. El operador ?!pattern solo devuelve verdadero si un patrón no coincide, pero nuevamente tiene un ancho cero y no avanza el puntero. La anticipación negativa se usa comúnmente cuando estamos analizando algún patrón complejo pero queremos descartar un caso especial. Por ejemplo, supongamos que queremos coincidir, al comienzo de una línea, con cualquier palabra que no comience con "Volcano". 
Podemos usar la anticipación negativa para hacer esto:

`/ˆ(?!Volcano)[A-Za-z]+/`



In [None]:
# Uso de la aserción de anticipación negativa
import re

# Texto de ejemplo
text = """
Volcanoes are fascinating.
Mountains are impressive.
Volcanoes can erupt.
Valleys are beautiful.
"""

# Expresión regular para coincidir con palabras que no comienzan con "Volcano" al inicio de una línea
pattern = re.compile(r'^(?!Volcano)[A-Za-z]+', re.MULTILINE)

# Buscar coincidencias en el texto
matches = pattern.findall(text)

# Imprimir las coincidencias
print("Palabras al inicio de líneas que no comienzan con 'Volcano':", matches)


In [None]:
# Uso de la aserción de anticipación positiva
import re

# Texto de ejemplo
text = "Order 123, Invoice 456, Number 789, Receipt 101"

# Expresión regular para coincidir con palabras seguidas de un número
pattern = re.compile(r'\b[A-Za-z]+(?=\s\d+)')

# Buscar coincidencias en el texto
matches = pattern.findall(text)

# Imprimir las coincidencias
print("Palabras seguidas de un número:", matches)


### Ejercicios

**Ejercicio 1: Identificación de palabras en español**

En español, algunas palabras comunes incluyen artículos como "el", "la", "los", "las", etc. Usando expresiones regulares, intenta identificar todas las palabras que sean artículos definidos en el siguiente texto.

**Texto de ejemplo:**
```plaintext
El perro corre por el parque y la niña juega con las hojas.
```

**Expresión regular sugerida:**
```python
pattern = re.compile(r'\b(el|la|los|las)\b', re.IGNORECASE)
matches = pattern.findall(texto)
print("Artículos encontrados:", matches)
```

**Ejercicio 2: Identificación de nombres en quechua**

En quechua, los nombres propios pueden terminar en "-na" o "-ya". Diseña una expresión regular que identifique los nombres que terminen en estas sílabas.

**Texto de ejemplo:**
```plaintext
Kusiya waqaykuna runasimipi rimaynan, Intinaq kanchaqta yachaq.
```

**Expresión regular sugerida:**
```python
pattern = re.compile(r'\b\w*(na|ya)\b')
matches = pattern.findall(texto)
print("Nombres encontrados:", matches)
```

**Ejercicio 3: Identificación de partículas en shipibo-konibo**

En shipibo-konibo, una partícula común es "-xon" que indica una acción en curso o habitual. Escribe una expresión regular que busque palabras que terminen con "-xon".

**Texto de ejemplo:**
```plaintext
Nete xonman kenki, jakon shinanmaben birirama.
```

**Expresión regular sugerida:**
```python
pattern = re.compile(r'\b\w*xon\b')
matches = pattern.findall(texto)
print("Palabras con '-xon' encontradas:", matches)
```

**Ejercicio 4: Normalización de texto en español**

Normaliza un texto en español eliminando todos los acentos. Escribe una expresión regular que reemplace las vocales acentuadas por su equivalente sin acento.

**Texto de ejemplo:**
```plaintext
El niño juega en la estación mientras llueve.
```

**Expresión regular sugerida:**
```python
import re

text = "El niño juega en la estación mientras llueve."
text_normalized = re.sub(r'[áÁ]', 'a', text)
text_normalized = re.sub(r'[éÉ]', 'e', text_normalized)
text_normalized = re.sub(r'[íÍ]', 'i', text_normalized)
text_normalized = re.sub(r'[óÓ]', 'o', text_normalized)
text_normalized = re.sub(r'[úÚ]', 'u', text_normalized)
print("Texto normalizado:", text_normalized)
```
**Ejercicio 5: Extracción de cantidades en quechua**

En quechua, los números son representados como palabras. Diseña una expresión regular que identifique números escritos en texto, como "iskay" (dos), "kimsa" (tres), etc.

**Texto de ejemplo:**
```plaintext
Iskay watakunapi, Kimsa runakuna tinkurirqa.
```

**Expresión regular sugerida:**
```python
pattern = re.compile(r'\b(iskay|kimsa|chunka|pichqa|soqta)\b', re.IGNORECASE)
matches = pattern.findall(texto)
print("Números encontrados:", matches)
```

Aquí tienes algunos ejercicios más elaborados que desafían aún más el uso de expresiones regulares en idiomas como quechua, shipibo-konibo y español:

**Ejercicio 6: Extracción y normalización de fechas en español**

En español, las fechas pueden aparecer en diferentes formatos, como "20 de abril de 2023", "20/04/2023" o "20-04-2023". Escribe una expresión regular que identifique todas las fechas en un texto y las convierta al formato estándar ISO "YYYY-MM-DD".

**Texto de ejemplo:**
```plaintext
La conferencia se celebrará el 20 de abril de 2023, y las inscripciones cierran el 15/04/2023. Otra fecha importante es el 25-04-2023.
```

**Expresión regular sugerida:**
```python
import re

# Texto de ejemplo
text = """
La conferencia se celebrará el 20 de abril de 2023, y las inscripciones cierran el 15/04/2023. Otra fecha importante es el 25-04-2023.
"""

# Expresión regular para fechas con formato "20 de abril de 2023"
pattern1 = re.compile(r'(\d{1,2}) de (\w+) de (\d{4})')
# Expresión regular para fechas con formato "20/04/2023" o "20-04-2023"
pattern2 = re.compile(r'(\d{1,2})[/-](\d{1,2})[/-](\d{4})')

# Función para convertir nombres de meses a números
def month_to_number(month):
    months = {
        "enero": "01", "febrero": "02", "marzo": "03", "abril": "04", 
        "mayo": "05", "junio": "06", "julio": "07", "agosto": "08", 
        "septiembre": "09", "octubre": "10", "noviembre": "11", "diciembre": "12"
    }
    return months.get(month.lower(), "00")

# Normalización de fechas "20 de abril de 2023"
def normalize_date1(match):
    day, month, year = match.groups()
    return f"{year}-{month_to_number(month)}-{int(day):02d}"

# Normalización de fechas "20/04/2023" o "20-04-2023"
def normalize_date2(match):
    day, month, year = match.groups()
    return f"{year}-{int(month):02d}-{int(day):02d}"

# Aplicar normalización
text_normalized = pattern1.sub(normalize_date1, text)
text_normalized = pattern2.sub(normalize_date2, text_normalized)

print("Texto con fechas normalizadas:", text_normalized)
```

**Ejercicio 7: Identificación y lematización de verbos en quechua**

En quechua, los verbos pueden tener diferentes sufijos que indican tiempo, modo o persona. Crea una expresión regular que identifique verbos en primera persona del singular y los convierta a su forma raíz.

**Texto de ejemplo:**
```plaintext
Rimashani runasimita, pero maqashani kaypimanta.
```

**Expresión regular sugerida:**
```python
import re

# Texto de ejemplo
text = "Rimashani runasimita, pero maqashani kaypimanta."

# Expresión regular para identificar verbos en primera persona del singular en tiempo presente (-shani)
pattern = re.compile(r'\b(\w+)(shani)\b')

# Función para lematizar los verbos
def lemmatize_verb(match):
    root, suffix = match.groups()
    return root + "y"  # Asumimos que la forma base termina en -y

# Aplicar lematización
text_lemmatized = pattern.sub(lemmatize_verb, text)

print("Texto lematizado:", text_lemmatized)
```

**Ejercicio 8: Tokenización avanzada en shipibo-konibo**

En shipibo-konibo, algunas partículas como "-ra", "-xon", y "-ken" pueden unirse a las palabras, formando diferentes significados. Diseña una expresión regular que separe correctamente las palabras de las partículas en un texto.

**Texto de ejemplo:**
```plaintext
Jakonra nete xonman kenki.
```

**Expresión regular sugerida:**
```python
import re

# Texto de ejemplo
text = "Jakonra nete xonman kenki."

# Expresión regular para separar partículas
pattern = re.compile(r'\b(\w+?)(ra|xon|ken)\b')

# Función para tokenizar
def tokenize_shipibo(match):
    word, suffix = match.groups()
    return f"{word} {suffix}"

# Aplicar tokenización
text_tokenized = pattern.sub(tokenize_shipibo, text)

print("Texto tokenizado:", text_tokenized)
```

**Ejercicio 9: Identificación de palabras comunes en español, quechua y shipibo-konibo**
Diseña una expresión regular que identifique palabras comunes en español, quechua y shipibo-konibo dentro de un texto multilingüe.

**Texto de ejemplo:**
```plaintext
El niño canta. Puka rumi. Jakon nete.
```

**Expresión regular sugerida:**
```python
import re

# Texto de ejemplo
text = "El niño canta. Puka rumi. Jakon nete."

# Expresión regular para identificar palabras comunes
pattern = re.compile(r'\b(el|niño|canta|puka|rumi|jakon|nete)\b', re.IGNORECASE)

# Buscar coincidencias
matches = pattern.findall(text)

print("Palabras comunes encontradas:", matches)
```

**Ejercicio 10: Extracción de oraciones que contienen un verbo específico en español**

Escribe una expresión regular que identifique y extraiga oraciones completas que contengan un verbo específico en español, por ejemplo, el verbo "comer" en cualquiera de sus formas conjugadas.

**Texto de ejemplo:**
```plaintext
Juan come manzanas. María no quiere comer. Ellos comen juntos en el parque.
```

**Expresión regular sugerida:**
```python
import re

# Texto de ejemplo
text = "Juan come manzanas. María no quiere comer. Ellos comen juntos en el parque."

# Expresión regular para identificar oraciones que contienen el verbo "comer" en cualquiera de sus formas
pattern = re.compile(r'([^.]*\bcom(?:o|es|e|emos|éis|en|er)\b[^.]*\.)', re.IGNORECASE)

# Buscar oraciones que contienen el verbo
matches = pattern.findall(text)

print("Oraciones que contienen el verbo 'comer':", matches)
```

**Ejercicio 11: Análisis de palabras polisémicas en quechua y shipibo-konibo**

En quechua y shipibo-konibo, algunas palabras pueden tener múltiples significados dependiendo del contexto. Diseña una expresión regular que identifique estas palabras polisémicas y las clasifique según su contexto.

**Texto de ejemplo:**
```plaintext
Quechua: Qollana kayta atipayani. Qollana yachachiq.  
Shipibo-Konibo: Netera boanman. Netera shinanmaben.
```

**Expresión regular sugerida:**
```python
import re

# Textos de ejemplo
text_quechua = "Qollana kayta atipayani. Qollana yachachiq."
text_shipibo = "Netera boanman. Netera shinanmaben."

# Expresión regular para identificar y clasificar palabras polisémicas en quechua
pattern_quechua = re.compile(r'\b(qollana)\b', re.IGNORECASE)
matches_quechua = [(match, "Superioridad" if "atipayani" in text_quechua else "Maestro") for match in pattern_quechua.findall(text_quechua)]

# Expresión regular para identificar y clasificar palabras polisémicas en shipibo-konibo
pattern_shipibo = re.compile(r'\b(netera)\b', re.IGNORECASE)
matches_shipibo = [(match, "Tierra" if "boanman" in text_shipibo else "Pensamiento") for match in pattern_shipibo.findall(text_shipibo)]

print("Palabras polisémicas en quechua:", matches_quechua)
print("Palabras polisémicas en shipibo-konibo:", matches_shipibo)
```


**Mas ejercicios**

Aquí tienes una lista de enunciados para ejercicios más elaborados sobre expresiones regulares:

1. **Validación de correos electrónicos en quechua:**
   Diseña una expresión regular que valide correos electrónicos siguiendo las normas de quechua, donde los dominios personalizados pueden contener caracteres propios del idioma.

2. **Extracción de citas textuales en español:**
   Escribe una expresión regular que identifique y extraiga citas textuales entrecomilladas en un texto en español, asegurándote de que también capture el autor de la cita si se menciona.

3. **Identificación de nombres en shipibo-konibo con sufijos específicos:**
   Crea una expresión regular que identifique nombres propios en shipibo-konibo que terminen en sufijos como "-maya", "-yan", o "-nko" y clasifícalos según el sufijo encontrado.

4. **Normalización de números en textos multilingües:**
   Desarrolla una expresión regular que encuentre y convierta números escritos en palabras en textos que mezclen español, quechua y shipibo-konibo, normalizándolos a su representación numérica (e.g., "tres" a "3", "kimsa" a "3", etc.).

5. **Tokenización de verbos compuestos en español:**
   Crea una expresión regular que identifique y separe correctamente verbos compuestos en español como "ha habido", "está diciendo", o "va a comer", manteniendo la integridad de la expresión verbal.

6. **Extracción de nombres de lugares en quechua:**
   Diseña una expresión regular que identifique nombres de lugares en quechua basándose en sufijos comunes como "-marca", "-pampa", o "-cocha", y los extraiga de un texto.

7. **Validación de fechas en shipibo-konibo:**
   Crea una expresión regular que valide fechas escritas en shipibo-konibo, asegurando que se cumplan los formatos locales y los nombres de meses específicos.

8. **Extracción de listas enumeradas en español:**
   Escribe una expresión regular que identifique listas enumeradas en textos en español, donde los elementos están separados por comas o puntos y comas, y extraiga cada elemento de la lista.

9. **Clasificación de verbos irregulares en quechua:**
   Diseña una expresión regular que identifique y clasifique verbos irregulares en quechua según sus raíces, diferenciando entre aquellos que cambian la raíz y aquellos que cambian el sufijo.

10. **Identificación de frases subordinadas en español:**
    Crea una expresión regular que identifique y extraiga frases subordinadas introducidas por conjunciones como "que", "cuando", "donde", "aunque" en un texto en español, asegurando que la frase completa sea capturada.

11. **Extracción de nombres de plantas medicinales en shipibo-konibo:**
    Desarrolla una expresión regular que identifique nombres de plantas medicinales en shipibo-konibo dentro de un texto, considerando variaciones dialectales y sufijos descriptivos comunes.

12. **Tokenización de textos en quechua con múltiples raíces:**
    Crea una expresión regular que separe palabras compuestas en quechua que consisten en múltiples raíces unidas por sufijos, permitiendo la correcta tokenización de cada parte.

13. **Validación de direcciones postales en español:**
    Diseña una expresión regular que valide direcciones postales en español, incluyendo nombres de calles, números, códigos postales y ciudades, asegurando que el formato sea correcto.

14. **Identificación de estructuras narrativas en shipibo-konibo:**
    Escribe una expresión regular que identifique estructuras narrativas comunes en textos en shipibo-konibo, como introducciones de historias o descripciones de rituales, extrayendo las secciones clave.

15. **Normalización de abreviaturas en quechua y español:**
    Crea una expresión regular que identifique y normalice abreviaturas comunes en quechua y español, expandiéndolas a su forma completa en el texto.



In [None]:
## Tus respuestas.