# 1. Buscar RegEx

Empecemos haciendo búsquedas de RegEx en un archivo.

In [None]:
import re
nombre_archivo = "Quijote.txt"
with open(nombre_archivo, "r") as f:
  contenido_archivo = f.read()

## Explicación del código
- l. 1: Las funciones de RegEx están en la librería estándar `re` de Python.
- l. 3: Creamos un objeto llamado `f`, que es el archivo "Quijote.txt" abierto en modo lectura ("r").
- l. 4. Guardamos todo el contenido del archivo (obtenido mediante la función o método `read` del objeto `f`) en la variable `contenido_archivo`.

### Importantísimo ⚠⚠⚠
Noten que l. 4 está sangrada (indentada) dos espacios a la derecha. Esta es la forma como en Python creamos bloques de texto. Este sangrado indica que l. 4 pertenece al bloque iniciado en l. 3. Si no lo indentamos obtendremos un error (y Python nos avisará) o el código funcionará mal.

In [None]:
patron_busqueda = r"Sancho"
p = re.compile(patron_busqueda)

ocurrencias = re.findall(p, contenido_archivo)

print(f"Encontré {len(ocurrencias)} ocurrencias de '{patron_busqueda}'.")

Encontré 2173 ocurrencias de 'Sancho'.


## Explicación del código
- l. 1: Guardamos nuestro patrón de búsqueda en una variable nueva. Nótese la "r" antes del contenido de la cadena: `r"Sancho"`. Esto le indica a Python que es una "raw string", es decir, que nos permitirá usar más fácilmente caracteres escapados de RegEx: "\n", "\t", etc. En este caso no se necesita, aunque es buena práctica hacerlo siempre con RegEx.
- l. 2: Compilamos el patrón de búsqueda (para agilizar e incluir, como luego haremos, banderas de búsqueda) y lo guardamos en un objeto llamado `p`.
- l. 4: La instrucción `re.findall(p, contenido_archivo)` busca el patrón `p` en el contenido de la variable `contenido_archivo` y devuelve una lista de todas las ocurrencias (si las hay); estas se guardan en la variable `instancias`.
- l. 5: Muestra en pantalla el número de ocurrencias (con la función `len()`) y el texto buscado.

In [None]:
patron_busqueda = r"SANCHO"
p = re.compile(patron_busqueda)
ocurrencias = re.findall(p, contenido_archivo)
print(f"Encontré {len(ocurrencias)} ocurrencias de '{patron_busqueda}'.")

Encontré 3 ocurrencias de 'SANCHO'.


Notemos que la búsqueda distingue entre mayúsculas y minúsculas.
¿Cómo evitar esa distinción?

In [None]:
patron_busqueda = r"sancho"
p = re.compile(patron_busqueda, re.IGNORECASE)
ocurrencias = re.findall(p, contenido_archivo)
print(f"Encontré {len(ocurrencias)} ocurrencias de '{patron_busqueda}'\
 sin distinción entre mayúsculas y minúsculas.")

Encontré 2176 ocurrencias de 'sancho' sin distinción entre mayúsculas y minúsculas.


## Explicación del código
- l. 2: la bandera `re.IGNORECASE` le indica a Python que la búsqueda de la RegEx no debe distinguir entre mayúsculas y minúsculas.

- [Aquí](https://docs.python.org/3/library/re.html#flags) pueden ver todas las banderas disponibles.

Ahora veamos el contexto (la línea completa) de todas las ocurrencias:

In [None]:
for num_linea, linea in enumerate(contenido_archivo.splitlines()):
  if re.findall(p, linea):
    print(f"Línea: {num_linea + 1}: {linea}")

Línea: 84: bravo don Quijote y su buen escudero Sancho Panza pasaron en la venta
Línea: 87: Donde se cuentan las razones que pasó Sancho Panza
Línea: 91: De las discretas razones que Sancho pasaba con su
Línea: 136: Quijote y Sancho Panza, su escudero, con otros sucesos
Línea: 188: Donde se trata del discreto coloquio que Sancho
Línea: 225: Que trata de la notable pendencia que Sancho Panza
Línea: 230: Sancho Panza y el bachiller Sansón Carrasco
Línea: 232: Donde Sancho Panza satisface al bachiller Sansón
Línea: 236: De la discreta y graciosa plática que pasó entre Sancho
Línea: 251: Donde se cuenta la industria que Sancho tuvo para
Línea: 326: doncellas pasaron con Sancho Panza, digna de que se lea y de que se
Línea: 338: carta que Sancho Panza escribió a su mujer Teresa Panza
Línea: 355: De los consejos que dio don Quijote a Sancho Panza
Línea: 360: Sancho Panza
Línea: 362: Cómo Sancho Panza fue llevado al gobierno, y de la
Línea: 365: De cómo el gran Sancho Panza tomó la posesión de

¿Qué es lo que pasa aquí? Mirémos un ejemplo más simple:

In [None]:
for l in contenido_archivo.splitlines():
  print(l)

El ingenioso hidalgo don Quijote de la Mancha



por Miguel de Cervantes Saavedra





El ingenioso hidalgo don Quijote de la Mancha


  
Tasa

  
Testimonio de las erratas

  
El Rey

  
Al Duque de Béjar

  
Prólogo

  
Al libro de don Quijote de la Mancha



Que trata de la condición y ejercicio del famoso
hidalgo don Quijote de la Mancha

Que trata de la primera salida que de su tierra hizo
el ingenioso don Quijote

Donde se cuenta la graciosa manera que tuvo don
Quijote en armarse caballero

De lo que le sucedió a nuestro caballero cuando salió
de la venta

Donde se prosigue la narración de la desgracia de
nuestro caballero

Del donoso y grande escrutinio que el cura y el
barbero hicieron en la librería de nuestro ingenioso hidalgo

De la segunda salida de nuestro buen caballero don
Quijote de la Mancha

Del buen suceso que el valeroso don Quijote tuvo en
la espantable y jamás imaginada aventura de los molinos de viento, con
otros sucesos dignos de felice recordación

Donde se con

Aquí pasamos línea por todo el contenido de archivo, almacenando cada una en la variable `l` y luego mostrándola en pantalla. La función (o método) [`.splitlines`](https://docs.python.org/3/library/stdtypes.html#str.splitlines)  es propia de las cadenas: devuelve una lista de Python para cada una de las líneas que componen una cadena. (La separación se hace cada vez que se encuentra uno de los caracteres de salto de línea: `\n, \r`, etc.)

Ahora miremos la segunda parte:

In [None]:
enumerate(contenido_archivo.splitlines())

Esta instrucción devuelve un objeto iterable que nos dará un conjunto (*set*) compuesto del índice y el contenido de cada ítem.

Si ahora ejecutamos esto:

In [None]:
for num_linea, linea in enumerate(contenido_archivo.splitlines()):
  print(f"Línea: {num_linea + 1}: {linea}")

veremos todas el índice de cada línea en el documento y su contenido. (Le tenemos que sumar 1 porque en Python las listas se cuentan desde 0.)

Volvamos de nuevo al código anterior:

In [None]:
for num_linea, linea in enumerate(contenido_archivo.splitlines()):
  if re.findall(p, linea):
    print(f"Línea: {num_linea + 1}: {linea}")

## Explicación del código
- l. 1: Vamos a hacer un bucle (*loop*) de tipo `for`, que pasará línea por línea por el contenido del archivo. Esta instrucción parece complicada, porque va a iterar sobre una pareja (*set*): `num_linea, linea`. Esta pareja es  producida por la instrucción `contenido_archivo.splitlines()`, que rompe el contenido de la cadena `contenido_archivo` en líneas (con el patrón `\r?\n`) y devuelve un "iterable", un objeto especial de Python.
  - En realidad, los bucles *for* son muy simples, por ejemplo:
  ```python
  for numero in [1, 2, 3, 4, 5]:
      print(numero)
  ```
  mostrará en pantalla: "1", "2", "3", "4", "5", cada uno en una línea distinta.
  Para ello toma uno a uno los ítems de la lista (el iterable) de la izquiera de `in` (`[1, 2, 3, 4, 5]`), guardándolo en la variable `numero`, y ejecutando el bloque de texto bajo sí (que en este ejemplo solo tiene una instrucción, la función `print()`).
- La función `enumerate()` toma el iterable y devuelve una pareja (set) de índice (cuál es el número de línea) y su valor (el contenido de la línea).
- l. 2: revisa si es verdad que se encontró el patrón en la línea, en cuyo caso ejecuta la instrucción en l. 3 (en su propio bloque de código).
- l. 3: ¿Por qué `num_linea + 1`? Porque en Python los índices siempre empiezan en 0. Entonces la línea `0` es en realidad la línea `0 + 1 = 1`, y así sucesivamente.


Ahora vamos a reemplazar todas las ocurrencias de la palabra `man`(en mayúsculas o minúsculas) por `person` y de `men` por `persons`.

In [None]:
patron_busqueda = r"\bhombres?\b"

p = re.compile(patron_busqueda, re.IGNORECASE)

instancias = re.findall(p, contenido_archivo)

print(f"Encontré {len(instancias)} instancias de '{patron_busqueda}',\
 sin distinción entre mayúsculas y minúsculas")

for num_linea, linea in enumerate(contenido_archivo.splitlines()):
  if re.findall(p, linea):
    print(f"Línea: {num_linea + 1}: {linea}")

## Explicación del código

- l. 1: El patrón es más elaborado: incluye los límites de palabra `\b` en ambos lado, para asegurarnos de que solo vamos a tomar una palabra completa (excluyendo e.g. "gentileshombre").
También usamos el cuantificador `?` delante de la `s` para indicar que la `s` puede estar 0 ó 1 vez ("hombre" y "hombres").
- ll. 10-12: iniciamos otro bucle.
- l. 12: en este caso vamos a mostrar el número de línea y el contenido de esta (el contexto de la ocurrencia).

# 2. Reemplazar RegEx

Usemos ahora la función `re.sub()` para reemplazar RegEx.

In [None]:
patron_busqueda = r"\bhombre(s?)\b"
p = re.compile(patron_busqueda, re.IGNORECASE)

reemplazo = r"persona\1"

for num_linea, linea in enumerate(contenido_archivo.splitlines()):
  if re.findall(p, linea):
    linea_nueva = re.sub(patron_busqueda, reemplazo, linea)
    print(f"Línea: {num_linea + 1}: {linea_nueva}")

Línea: 559: que se componen en las casas de los personas que saben, ose parecer
Línea: 617: admiran a los leyentes y tienen a sus autores por personas leídos, eruditos
Línea: 706: persona erudito en letras humanas y cosmógrafo, haced de modo como en
Línea: 850: Deja que el persona de jui-,
Línea: 929: Salve otra vez, ¡oh Sancho!, tan buen persona,
Línea: 1086: persona docto, graduado en Sigüenza—, sobre cuál había sido mejor caballero:
Línea: 1302: venir un persona de aquella suerte, armado y con lanza y adarga, llenas de
Línea: 1322: adelante si a aquel punto no saliera el ventero, persona que, por ser muy
Línea: 1913: de trigo al molino; el cual, viendo aquel persona allí tendido, se llegó a
Línea: 1930: persona, lo mejor que pudo le quitó el peto y espaldar, para ver si tenía
Línea: 2445: En este tiempo, solicitó don Quijote a un labrador vecino suyo, persona de
Línea: 3136: conciencia. Si no, dígame ahora: si acaso en muchos días no topamos persona
Línea: 3142: caminos no andan per

### Explicación del código
- l. 1: Complicamos el patrón de búsqueda un poco más. Hemos incluido `s?` entre paréntesis: `(s?)`. Este es un grupo de captura que luego aprovecharemos, si es el caso, en la sustitución.
- l. 4: He aquí la sustitución. Supongamos que hemos encontrado "hombre**s**". Entonces nuestro grupo de captura #1 tiene "s". Podemos referirnos a él (más exactamente, a su contenido) con la RegEx `\1` (porque solo hay un grupo de captura). Entonces, la sustitución será "persona**s**".
- l. 6: De nuevo, iteramos sobre el contenido del archivo, línea por línea, con un bucle `for`.
- l. 7: Mediante un bloque condicional `if`, revisamos si el patrón `p` está en la línea. La función `re.findall()` busca todas las ocurrencias de un patrón RegEx en una cadena de texto.
- l. 8: Si la condición se cumple (es decir, si "\bhombre\b" está en la línea), entonces la función `re.sub()` substituye *todas* las ocurrencias y guarda la cadena nueva en la variable `linea_nueva`. E.g., "El hombre hombres hombre" → "El persona personas persona".

## ⚠⚠⚠
Nótese que la concordancia de género se habrá perdido en muchos casos: "**el** persona", "**los** personas", etc. Tendríamos que revisar caso por caso para buscar una regla de reemplazo más general. E.g. `\b(el|los) hombres?\b`, etc., aunque el reemplazo es más complejo.

También tendríamos que revisar concordancia de género en los adjetivos, e.g. "persona blanc**o**".

## Guardemos los cambios
Hagámoslo en un archivo nuevo.

In [None]:
nombre_archivo_viejo = "Quijote.txt"
nombre_archivo_nuevo = "Quijote_cambiado.txt"

patron_busqueda =r"\bhombre(s?)\b"
p = re.compile(patron_busqueda, re.IGNORECASE)

reemplazo = "persona\1"

with open(nombre_archivo_viejo, 'r') as fviejo:
  contenido_archivo_viejo = fviejo.read()
  with open(nombre_archivo_nuevo, 'w') as fnuevo:
    for num_linea, linea in enumerate(contenido_archivo_viejo.splitlines()):
      if re.findall(patron_busqueda, linea, re.IGNORECASE):
        linea_nueva = re.sub(patron_busqueda, reemplazo, linea)
      else:
        linea_nueva = linea
      print(f"Línea: {num_linea + 1}: {linea_nueva}")
      fnuevo.write(linea_nueva + "\n")

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
Línea: 32672: 
Línea: 32673: — ¿Y dónde está esa ínsula? —preguntó Ricote.
Línea: 32674: 
Línea: 32675: — ¿Adónde? —respondió Sancho—. Dos leguas de aquí, y se llama la ínsula
Línea: 32676: Barataria.
Línea: 32677: 
Línea: 32678: — Calla, Sancho —dijo Ricote—, que las ínsulas están allá dentro de la mar;
Línea: 32679: que no hay ínsulas en la tierra firme.
Línea: 32680: 
Línea: 32681: — ¿Cómo no? —replicó Sancho—. Dígote, Ricote amigo, que esta mañana me partí
Línea: 32682: della, y ayer estuve en ella gobernando a mi placer, como un sagitario;
Línea: 32683: pero, con todo eso, la he dejado, por parecerme oficio peligroso el de los
Línea: 32684: gobernadores.
Línea: 32685: 
Línea: 32686: — Y ¿qué has ganado en el gobierno? —preguntó Ricote.
Línea: 32687: 
Línea: 32688: — He ganado —respondió Sancho— el haber conocido que no soy bueno para
Línea: 32689: gobernar, si no es un hato de ganado, y que las riquezas que se ganan 

# Explicación del código
- Empecemos desde cero (para que el código esté autocontenido en esta celda).
- ll. 1-2: Los nombres de los archivos: el viejo y el nuevo.
- l. 9: abrimos en modo solo lectura ("r", de "read") el archivo viejo.
- l. 11: abrimos en modo escritura ("w", de "write") el archivo nuevo.
- Como estamos trabajando con dos archivos distintos (uno de escritura y otro de lectura) es necesario usar dos objetos de archivo diferentes: `fviejo` y `fnuevo`.
- El algoritmo funciona así:
  1. Leemos una línea en `fviejo`.
  2. ¿Tiene `hombre` en ella? Si sí, lo cambiamos por `persona` en la variable `linea_nueva`.
  3. Si no, ¿tiene `hombres` en ella? Si sí, lo cambiamos por `personas` en la variable `linea_nueva`.
  4. De lo contrario, lo dejamos tal cual: copiamos la línea original (sin cambios) en la variable `linea_nueva`.
  5. Finalmente escribirmos en el archivo `fnuevo` el contenido de `linea_nueva`.

# Búsqueda de expresiones regulares *fuzzy* (borrosas, difusas)

Para esto, usaremos la librería [`regex`](https://github.com/mrabarnett/mrab-regex).

## Búsquedas aproximadas

### Clave

- `{i}`: inserción
- `{d}`: eliminación
- `{s}`: sustitución
- `{e}`: errores

Si se especifica un tipo de error determinado, no se permitirá ningún tipo no especificado.

- `(?:foo){d<=3}` permite como máximo 3 eliminaciones, pero ningún otro tipo
- `(?:foo){i<=1,s<=2}` permite como máximo 1 inserción y como máximo 2 sustituciones, pero no eliminaciones
- `(?:foo){1<=e<=3}` permite como mínimo 1 y como máximo 3 errores
- `(?:foo){i<=2,d<=2,e<=3}` permite como máximo 2 inserciones, como máximo 2 eliminaciones, como máximo 3 errores en total, pero no sustituciones

# Veamos algunos ejemplos:

In [None]:
import regex

# Ejemplo 1: Errores ortográficos y faltas comunes en español
texto = "Me gusta la programación en Python y también programasión en JavaScript"

patron1 = r"(?:programación){e<=2}"
ocurrencias = regex.findall(patron1, texto)
print(f"Coincidencia difusa de 'programación': {ocurrencias}")

patron2 = r"(?:programación){e<=1}"
ocurrencias = regex.findall(patron2, texto)
print(f"Coincidencia difusa de 'programación': {ocurrencias}")

patron3 = r"(?:programación){e<=1}"
ocurrencias = regex.findall(patron2, texto)
print(f"Coincidencia difusa de 'programación': {ocurrencias}")

Coincidencia difusa de 'programación': ['a programación', ' programasión']
Coincidencia difusa de 'programación': [' programación', 'programasión']
Coincidencia difusa de 'programación': [' programación', 'programasión']


In [None]:
# Ejemplo 2: Coincidencias sin acentos (muy común en español)
texto = "El niño come manzanas rojas en el jardin"
patron = r"(?:jardín){e<=1}"
ocurrencias = regex.findall(patron, texto)
print(f"Coincidencia difusa de acentos: {ocurrencias}")

In [None]:
# Ejemplo 3: Confusiones comunes de palabras en español
texto = "Ay que ir a la casa ahora"
patron = r"\b(?:Hay){e<=1}\b"
ocurrencias = regex.findall(patron, texto)
print(f"Confusión Hay/Ay: {ocurrencias}")


In [None]:
# Ejemplo 4: Variaciones en conjugaciones verbales
texto = "Los estudiante estudian matemáticas y física"
patron = r"(?:estudiantes){e<=2}"
ocurrencias = regex.findall(patron, texto)
print(f"Coincidencia de forma verbal: {ocurrencias}")

Coincidencia de forma verbal: [' estudiante ']


In [None]:
# Ejemplo 5: Nombres geográficos con variaciones
texto = "Vivo en Méjico, es un país hermoso"  # Grafía antigua de "México"
patron = r"(?:México){e<=1}"
ocurrencias = regex.findall(patron, texto)
print(f"Variación geográfica: {ocurrencias}")

Variación geográfica: ['Méjico']


In [None]:
# Ejemplo 6: Errores ortográficos comunes en español - letras dobles
texto = "La communicación es importante"  # Debería ser "comunicación"
patron = r"(?:comunicación){e<=2}"
ocurrencias = regex.findall(patron, texto)
print(f"Error de letra doble: {ocurrencias}")

Error de letra doble: [' communicación']


In [None]:
# Ejemplo 7: Doble "m" (inserción)
texto = "La communicación es importante"
patron = r"(?:comunicación){i<=1}"
ocurrencias = regex.findall(patron, texto)
print(f"Patrón {patron}: {ocurrencias}")

Patrón (?:comunicación){i<=1}: ['communicación']


In [None]:
# Ejemplo 8: Confusión b/v (sustitución)
texto = "Voy a haber si puedo ayudarte"  # "b" en lugar de "v"
patron = r"(?:ver){s<=1}"
ocurrencias = regex.findall(patron, texto)
print(f"Patrón {patron}: {ocurrencias}")

Patrón (?:ver){s<=1}: ['ber']


In [None]:
# Ejemplo 9: limpiar texto OCR

texto = "La educaci0n es muy imp0rtante para el desarr0llo"
patron = r"(?:educación){s<=2,i<=0,d<=0}"
ocurrencias = regex.findall(patron, texto)
print(f"Encontrado: {ocurrencias}")

nueva_linea = regex.sub(patron, "educación", texto)
print(f"Sustitución: {nueva_linea}")


Encontrado: ['educaci0n']
Sustitución: La educación es muy imp0rtante para el desarr0llo
