# **Procesamiento del Lenguaje Natural y Seguridad Informática**

# **Práctica Semana 5**

En esta segunda práctica vamos a proponer algunas estrategias para conseguir anonimizar textos. Como la anterior, se trata de una práctica abierta, en la que solo se indican los grandes pasos a realizar, que deberán ser diseñados y programados por el estudiantado.



Para intentar anonimizar un texto, en primer lugar debemos aplicar algún mecanismo de reconocimiento de entidades nombradas, de modo que, al menos, detectemos los nombres de personas que aparecen en el texto.

**Ejercicio 1**. Utilizad la librería *spacy* para reconocer entidades, inspirándoos de la siguiente página:

https://github.com/DionBenFernandes-Dev/Python-Based-Named-Entity-Recognition-with-spaCy

In [None]:
import spacy

Para que el reconocimiento sea en español:

In [2]:
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.8.0/es_core_news_md-3.8.0-py3-none-any.whl (42.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.3/42.3 MB[0m [31m15.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-md
Successfully installed es-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
import es_core_news_md

In [4]:
nlp = es_core_news_md.load()

In [None]:
texto="Julio Rubio, Universidad de La Rioja, julio.rubio@unirioja.es, 24 de octubre de 2024"

In [None]:
doc = nlp(texto)
for ent in doc.ents:
    print(ent.text, ent.label_)

Julio Rubio PER
Universidad de La Rioja LOC


**Tras importarse spaCy en su versión española, a la variable `doc` se le asigna el resultado de aplicar la función `nlp` al texto, para su procesamiento.**

**Mediante una iteración se recorren las entidades nombradas del texto procesado y se muestra su etiqueta correspondiente. Por ejemplo, *Julio Rubio* se etiqueta como persona (PER) y *Universidad de La Rioja* como lugar (LOC).**

In [None]:
def mostrarEntidades(texto):
    doc = nlp(texto)
    for ent in doc.ents:
        print(ent.text, ent.label_)

In [None]:
texto1= "El 14 de julio de 2023, durante el congreso celebrado en el Palacio de Congresos de Barcelona, Laura Fernández (CEEI Catalunya) presentó su proyecto junto a Miguel Ángel Ruiz de la empresa TechSol S.A.. A las 10:30 h quedó previsto un taller impartido por la Dra. Carmen Delgado en la sala Aurora. Por la tarde, un grupo de asistentes viajaron a Sitges, mientras que otros visitaron el Museo Picasso. Finalmente, el equipo de Acciona Energía anunció en rueda de prensa que inaugurará una nueva planta solar en Almería el próximo 2 de septiembre de 2024."

In [None]:
mostrarEntidades(texto1)

Palacio de Congresos de Barcelona LOC
Laura Fernández PER
CEEI Catalunya ORG
Miguel Ángel Ruiz PER
TechSol S.A ORG
Dra. Carmen Delgado PER
Por la tarde MISC
Sitges LOC
Museo Picasso LOC
Finalmente PER
Acciona Energía ORG
Almería LOC


**Con el objetivo de reutilizar el código fácilmente, se ha creado la función `mostrarEntidades`, que extrae las entidades nombradas y las muestra como se observa en el ejemplo.**

**Ejercicio 2**. Escribir un programa que, dado un texto, lo transforme cambiando todas las personas que aparezcan por la cadena "Persona anonimizada".

In [5]:
def personas (texto):
  listares = []
  documento = nlp(texto)
  for named_entity in documento.ents:
    if named_entity.label_ == "PER":
        listares.append(str(named_entity))
  return(listares)

def personaAnonimizada(texto):
    nombres = personas(texto)
    resultado = texto
    for nombre in nombres:
        resultado = resultado.replace(nombre, "Persona anonimizada")
    return resultado


**Para la resolución del ejercicio se ha optado por una solución modular secuencial:**
**1) Con la función `personas(texto)` se extraen las entidades etiquetadas como persona (PER). De este modo, la variable `listares` se inicia como una lista vacía; a continuación, a la variable `documento`se le asigna la función `nlp(texto)`, y luego, se recorre cada entidad nombrada en `documento.ents`.
Si la etiqueta de la entidad es *PER,* la entidad nombrada en forma de objeto se transforma en una cadena de texto y se añade a `listares` mediante el método `append`. Finalmente, la función devuelve la lista con los nombres de persona presentes en el texto.**
**2) La función `personaAnonimizada(texto)` reutiliza `personas(texto)` para, a través de un bucle, recorrer en el texto los nombres detectados y sustituirlos por la cadena "Persona anonimizada" mediante el método `replace`.
De esta manera, se separa la detección nominal de la de transformación, con lo que se posibilita la reutilización de cada función independientemente.**


In [None]:
texto2 = "María Aguirre y Manuel Alonso fueron a visitar a Luis López."

In [None]:
personas(texto2)

['María Aguirre', 'Manuel Alonso', 'Luis López']

In [None]:
personaAnonimizada(texto2)

'Persona anonimizada y Persona anonimizada fueron a visitar a Persona anonimizada.'

In [None]:
texto3 = "Abascal, Alvise y Ayuso, ejes de la difusión de bulos y la banalización del asesinato de Samuel Luiz"

In [None]:
personas(texto3)

['Abascal', 'Alvise', 'Samuel Luiz']

In [None]:
personaAnonimizada(texto3)

'Persona anonimizada, Persona anonimizada y Ayuso, ejes de la difusión de bulos y la banalización del asesinato de Persona anonimizada'

**Con la llamada a la función `personas` ya se observa lo que se constata con `personaAnonimizada`, que *Ayuso* no se ha reconocido como entidad nombrada del tipo persona, por lo que tampoco ha sido anonimizada.**

Si alguna de alguna de las personas no son reconocidas, probad añadiendo nombres propios o más apellidos.

In [None]:
texto4 = "Abascal, Alvise e Isabel Díaz Ayuso, ejes de la difusión de bulos y la banalización del asesinato de Samuel Luiz"

In [None]:
personas(texto4)

['Abascal', 'Alvise', 'Isabel Díaz Ayuso', 'Samuel Luiz']

In [None]:
personaAnonimizada(texto4)

'Persona anonimizada, Persona anonimizada e Persona anonimizada, ejes de la difusión de bulos y la banalización del asesinato de Persona anonimizada'

Probad con más ejemplos:

In [None]:
texto5= "Pérez, Martínez y Ruiz fueron al monte"

In [None]:
personas(texto5)

['Pérez', 'Martínez', 'Ruiz']

In [None]:
personaAnonimizada(texto5)

'Persona anonimizada, Persona anonimizada y Persona anonimizada fueron al monte'

In [None]:
texto6="Pérez, Martínez y Ruiz, grandes amigos de Juan, fueron al monte"

In [None]:
personas(texto6)

['Pérez', 'Martínez', 'Ruiz', 'Juan']

In [None]:
personaAnonimizada(texto6)

'Persona anonimizada, Persona anonimizada y Persona anonimizada, grandes amigos de Persona anonimizada, fueron al monte'

In [None]:
texto7="Pérez, Martínez y Ayuso grandes amigos de Juan, fueron al monte"

In [None]:
personas(texto7)

['Pérez', 'Martínez', 'Juan']

In [None]:
personaAnonimizada(texto7)

'Persona anonimizada, Persona anonimizada y Ayuso grandes amigos de Persona anonimizada, fueron al monte'

**Estos ejemplos muestran que la extracción y sustitución nominal no funciona en todos los casos en spaCy. Probablemente sea porque *Ayuso* no aparezca etiquetada frecuentemente como entidad nombrada personal, pues otros antropónimos como *Ruiz* en estructuras sintácticas similares sí han sido reconocidos por la herramienta. Se desprende de ello que la calidad del anonimizado depende del modelo NER subyacente.**

**Ejercicio 3**. Modificad el programa del Ejercicio 2 para que identifique cuando una persona aparece varias veces y las reemplace por "Persona anonimizada 1", "Persona anonimizada 2", etc.

In [None]:
texto = "Este verano se han cumplido tres años del crimen homófobo que acabó con la vida del estudiante brasileño. La semana pasada arrancó el juicio en la Audiencia Provincial de A Coruña: Diego Montaña, Alejandro Freire, Kaio Amaral Silva, Alejandro Míguez y Catherine Silva pasarán por el banquillo de los acusados antes del fallo del jurado popular."

In [6]:
def personaNumerada(texto):
    nombres = personas(texto)
    resultado = texto
    for i, nombre in enumerate(personas(texto)):
        texto = texto.replace(nombre, "Persona anonimizada " + str(i+1))
    return texto

In [None]:
personaNumerada(texto)

'Este verano se han cumplido tres años del crimen homófobo que acabó con la vida del estudiante brasileño. La semana pasada arrancó el juicio en la Audiencia Provincial de A Coruña: Persona anonimizada 1, Persona anonimizada 2, Persona anonimizada 3, Persona anonimizada 4 y Persona anonimizada 5 pasarán por el banquillo de los acusados antes del fallo del jurado popular.'

**La función `personaNumerada(texto)` invoca a la función `personas` para obtener la lista de los nombres detectados en el texto, que se recorre con el bucle `for i, nombre in enumerate(personas (texto))`, en el que la función `enumerate(personas(texto))` devuelve un número y el nombre de la persona. Luego,en cada iteración se sustituyen las apariciones del nombre en la variable `texto` mediante `texto.replace(nombre,  "Persona anonimizada " + str(i+1) )`, de modo que el primer nombre pasa a *Persona anonimizada 1*, el segundo a *Persona anonimizada 2*, y así sucesivamente. Además, `str(i+1)` convierte el número en una cadena de texto para concatenarlo con este.**

Probad vuestro programa en otros ejemplos.

In [None]:
texto8= "Ana fue al monte y Ana se cayó"

In [None]:
personaNumerada(texto8)

'Persona anonimizada 1 fue al monte y Persona anonimizada 1 se cayó'

In [None]:
texto9="Ana se encontró con Juan y le dijo a Luis que habia visto a Juan"

In [None]:
personaNumerada(texto9)

'Persona anonimizada 1 se encontró con Persona anonimizada 2 y le dijo a Persona anonimizada 3 que habia visto a Persona anonimizada 2'

**En estos ejemplos se comprueba que la función `personaNumerada(texto)` asigna correctamente un número a cada persona detectada, y mantiene el mismo número si un nombre aparece varias veces.**

**Ejercicio 4**. Para detectar direcciones de correo electrónico basta con utilizar expresiones regulares, utilizando la librería *re*. Escribir un programa que anonimice direcciones de correo electrónico.

In [7]:
import re

In [8]:
def detectarEmails(texto):
    regex = "\\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\\.[A-Za-z]{2,}\\b"
    return re.findall(regex, texto)

def anonimizarEmail(texto):
    resultado = texto
    for email in detectarEmails(texto):
        resultado = resultado.replace(email, "email_anonimizado")
    return resultado


**En primer lugar, tras importarse la librería `re` de Python que proporciona operaciones de coincidencia de expresiones regulares, se ha definido la función `detectarEmails(texto)` para identificar las direcciones de correo electrónico presentes en un determinado texto.**

**Para ello, se ha creado la variable `regex` a la que se ha asignado la expresión regular que describe el patrón de una dirección de email.**

**Esta expresión se interpreta de la siguiente manera:**

**-\\b indica un límite de palabra.**

**-[A-Za-z0-9._%+-] es una expresión regular que representa el nombre del usuario, así como el dominio del correo, que pueden constar de símbolos alfanuméricos, puntos, guiones, guiones bajos, signos de porcentaje y el signo de suma.**

**-el símbolo + indica que el nombre de usuario debe contener uno o más caracteres válidos y la arroba @ aparecerá literalmente después en el patrón.**

**- \\. es el punto tras el dominio.**

**-[A-Za-z]{2,} representa que, al menos, aparecerán dos caracteres, bien en mayúscula o minúscula (la extensión del dominio).**

**-\\b indica el término del patrón con otro límite de palabra.**

**La función aplica como salida otra función `findall(regex, texto)` en el módulo` re` de expresiones regulares mencionado que busca los patrones coincidentes en el texto.**


In [None]:
texto10 = "Puedes escribir a ana.lopez@correo.com o a info@empresa.es para más información."

In [None]:
detectarEmails(texto10)

['ana.lopez@correo.com', 'info@empresa.es']

**En segundo lugar, la función `anonimizarEmail(texto)` sustituye las direcciones de correo electrónico detectadas en un texto por la expresión *email_anonimizado*.**

**Para ello, se asigna el texto original a la variable `resultado` y, mediante un bucle *for*, se iteran las direcciones de correo encontradas en el texto, a través de la función `detectarEmails(texto)`, que devuelve, como antes se ha señalado, los correos electrónicos.**

**Con la aplicación de `replace`, se sustituye esa dirección por *email_anonimizado*.**


In [None]:
texto11="Sara Pérez, Universidad de Marid, sara.perez@unirioja.es, 24 de octubre de 2024"

In [None]:
anonimizarEmail(texto11)

'Sara Pérez, Universidad de Marid, email_anonimizado, 24 de octubre de 2024'

Probad con este texto, primero para detectar y después para anonimizar:

In [None]:
texto12="Julio Rubio, Universidad de La Rioja, julio.rubio@unirioja.es, 24 de octubre de 2024"

In [None]:
detectarEmails(texto12)

['julio.rubio@unirioja.es']

In [None]:
anonimizarEmail(texto12)

'Julio Rubio, Universidad de La Rioja, email_anonimizado, 24 de octubre de 2024'

Probad vuestro programa con otros ejemplos.

In [None]:
texto13 = "María González escribió a juan.perez@gmail.com para confirmar la reunión con Laura Ortega. Finalmente, María González respondió desde su cuenta personal maria.gonzalez@hotmail.com."


In [None]:
anonimizarEmail(personaNumerada(texto13))


'Persona anonimizada 1 escribió a email_anonimizado para confirmar la reunión con Persona anonimizada 2 Finalmente, Persona anonimizada 1 respondió desde su cuenta personal email_anonimizado.'

**Con los ejemplos se comprueba que la modularidad de las funciones definidas les permite aplicarse conjunta e independientemente a un tiempo, de modo que el procedimiento seguido en la práctica ha sido  siempre gradual: detección y reemplazo.**

**Ejercicio 5**. Programad una función que anonimice un texto con todas las funcionalidades de los ejercicios anteriores.

In [9]:
def anonimizarTodo(texto):
    return anonimizarEmail(personaNumerada(texto))


**La función `anonimizarTodo(texto)` invoca a la función `personaNumerada(texto)` y, posteriormente, aplica la función `anonimizarEmail(texto)` sobre el resultado anterior, de manera que reemplaza las direcciones de correo electrónico por `email_anonimizado`.**

**Es un ejemplo, además de composición de funciones, de lo señalado anteriormente sobre la idoneidad de crear un código de programación modular.**

In [None]:
texto="Julio Rubio, Universidad de La Rioja, julio.rubio@unirioja.es, 24 de octubre de 2024"

In [None]:
anonimizarTodo(texto)

'Persona anonimizada 1, Universidad de La Rioja, email_anonimizado, 24 de octubre de 2024'

**Ejercicio opcional (abierto)**. Compárese el rendimiento de vuestros programas con otros pre-programados (basados en LLM o en otras técnicas de aprendizaje automático).

### **1. Contextualización**

**La biblioteca `presidio-anonymizer` es un módulo de Python de código abierto, desarrollado por Microsoft, cuyo objetivo es anonimizar (y opcionalmente desanonimizar) texto que contiene información sensible o datos personales identificables (PII).**

**El módulo emplea una combinación de técnicas de aprendizaje automático, entre las que se hallan expresiones regulares y Reconocimiento de Entidades Nombradas (NER) mediante la integración de herramientas especializadas en el Procesamiento del Lenguaje Natural (PLN) como spaCy.**

**A continuación se adjuntan los enlaces de la documentación empleada para la implementación del programa:**

https://pypi.org/project/presidio-anonymizer/#description

https://microsoft.github.io/presidio/analyzer/

### **2. Código de detección y anonimización de datos personales con Presidio**

In [None]:
!pip install presidio-analyzer presidio-anonymizer

Collecting presidio-analyzer
  Downloading presidio_analyzer-2.2.358-py3-none-any.whl.metadata (3.2 kB)
Collecting presidio-anonymizer
  Downloading presidio_anonymizer-2.2.358-py3-none-any.whl.metadata (8.1 kB)
Collecting phonenumbers<9.0.0,>=8.12 (from presidio-analyzer)
  Downloading phonenumbers-8.13.55-py2.py3-none-any.whl.metadata (11 kB)
Collecting tldextract (from presidio-analyzer)
  Downloading tldextract-5.3.0-py3-none-any.whl.metadata (11 kB)
Collecting requests-file>=1.4 (from tldextract->presidio-analyzer)
  Downloading requests_file-2.1.0-py2.py3-none-any.whl.metadata (1.7 kB)
Downloading presidio_analyzer-2.2.358-py3-none-any.whl (114 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m114.9/114.9 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading presidio_anonymizer-2.2.358-py3-none-any.whl (31 kB)
Downloading phonenumbers-8.13.55-py2.py3-none-any.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m3

In [None]:
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
from presidio_anonymizer.entities import OperatorConfig

analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()

test_corpus = [
    "María González wrote to juan.perez@gmail.com to confirm the meeting.",
    "You can contact Ana Ruiz via ana.ruiz@empresa.org.",
    "During the conference in Madrid, Laura Fernández presented her talk alongside Miguel Ángel Soto and Carmen Delgado. Later, they held a press conference and answered questions via the email contacto@eventos2025.org."
]

operators = {
    "PERSON": OperatorConfig("replace", {"new_value": "Persona anonimizada"}),
    "EMAIL_ADDRESS": OperatorConfig("replace", {"new_value": "email_anonimizado"}),
}

for texto in test_corpus:
    entidades_detectadas = analyzer.analyze(text=texto, language="en")
    resultado = anonymizer.anonymize(
        text=texto,
        analyzer_results=entidades_detectadas,
        operators=operators
    )

    print("Original:   ", texto)
    print("Anonimizado:", resultado.text)
    print()




Original:    María González wrote to juan.perez@gmail.com to confirm the meeting.
Anonimizado: Persona anonimizada wrote to email_anonimizado to confirm the meeting.

Original:    You can contact Ana Ruiz via ana.ruiz@empresa.org.
Anonimizado: You can contact Persona anonimizada via email_anonimizado.

Original:    During the conference in Madrid, Laura Fernández presented her talk alongside Miguel Ángel Soto and Carmen Delgado. Later, they held a press conference and answered questions via the email contacto@eventos2025.org.
Anonimizado: During the <IN_PAN> in <LOCATION>, Persona anonimizada presented her talk alongside Persona anonimizada and Persona anonimizada. Later, they held a press <IN_PAN> and answered questions via the email email_anonimizado.



**Tras instalarse las librerías `presidio-analyzer` y `presidio-anonymizer`, se han importado las clases `AnalyzerEngine`, `AnonymizerEngine` y `OperatorConfig`del módulo `presidio_analyzer.`**

**Luego, se han definido dos variables (`analyzer y anonymizer`) a las que se les ha asignado una instancia de las clases `AnalyzerEngine` y `AnonymizerEngine`, (es decir, dos objetos), respectivamente, para analizar y anonimizar el texto en el programa.**

**Después a la variable `test_corpus` se le ha asignado, en forma de lista de cadenas textuales, un pequeño corpus muestral con nombres de personas y direcciones de correo electrónico, mientras que a la variable `operators `, en forma de diccionario, se le han asignado claves que representan las entidades y *emails* a anonimizar (*PERSON y EMAIL_ADDRESS)*, cuyos valores, objetos de la clase `OperatorConfig`, definen la operación de reemplazo y el texto con el que se sustituirá cada entidad detectada.**

**En el bloque final, mediante una iteración, se recorre cada uno de los textos del corpus y se aplica el método `analyze(text=texto, language="en")`, en inglés porque en español hubo problemas en la detección, al objeto` analyzer` para identificar las entidades nombradas de tipo  personal y los correos electrónicos y, mediante el método `anonymize(text=texto,analyzer_results=entidades_detectadas, operators=operators)`, se transforma el objeto *anonymizer*, cuya salida se guarda en la variable `resultado`, de modo que el texto queda anonimizado.**

**Finalmente, se imprimen los textos originales y los anonimizados**.
    

### **3. Aplicación de la función `anonimizarTodo ` al corpus de prueba**

In [10]:
test_corpus = [
    "María González escribió a juan.perez@gmail.com para confirmar la reunión.",
    "Puedes contactar con Ana Ruiz a través de ana.ruiz@empresa.org.",
    "Durante la conferencia en Madrid, Laura Fernández presentó su ponencia junto a Miguel Ángel Soto y Carmen Delgado. Más tarde, ofrecieron una rueda de prensa y respondieron dudas en el correo contacto@eventos2025.org."
]

for texto in test_corpus:
    anon = anonimizarTodo(texto)
    print("Original:   ", texto)
    print("Anonimizado:", anon)


Original:    María González escribió a juan.perez@gmail.com para confirmar la reunión.
Anonimizado: Persona anonimizada 1 escribió a email_anonimizado para confirmar la reunión.
Original:    Puedes contactar con Ana Ruiz a través de ana.ruiz@empresa.org.
Anonimizado: Puedes contactar con Persona anonimizada 1 a través de email_anonimizado.
Original:    Durante la conferencia en Madrid, Laura Fernández presentó su ponencia junto a Miguel Ángel Soto y Carmen Delgado. Más tarde, ofrecieron una rueda de prensa y respondieron dudas en el correo contacto@eventos2025.org.
Anonimizado: Durante la conferencia en Madrid, Persona anonimizada 1 presentó su ponencia junto a Persona anonimizada 2 y Persona anonimizada 3. Más tarde, ofrecieron una rueda de prensa y respondieron dudas en el correo email_anonimizado.


**Mediante una iteración sobre cada uno de los textos contenidos en  la variable `test_corpus,` se ha llamado a la función creada en la práctica, `anonimizarTodo `, y se han imprimido en pantalla tanto el texto original como su versión anonimizada.**

###**4. Evaluación de Presidio**

**Dado que Presidio está configurado en inglés, se ha traducido el pequeño corpus a esa lengua para poder evaluar el programa.**

**De este modo, el corpus de prueba se ha definido con tres pares oracionales y se ha conformado con un texto original con nombres personales y direcciones de correo electrónico y los correspondientes textos anonimizados.**

**Además, para que la evaluación sea justa se ha respetado el formato de anonimización por defecto de Presidio, que no incluye numeración.**

In [None]:
test_corpus_presidio = [
    (
        "María González wrote to juan.perez@gmail.com to confirm the meeting.",
        "Persona anonimizada wrote to email_anonimizado to confirm the meeting."
    ),
    (
        "You can contact Ana Ruiz via ana.ruiz@empresa.org.",
        "You can contact Persona anonimizada via email_anonimizado."
    ),
    (
        "During the conference in Madrid, Laura Fernández presented her talk alongside Miguel Ángel Soto and Carmen Delgado. Later, they held a press conference and answered questions via the email contacto@eventos2025.org.",
        "During the conference in Madrid, Persona anonimizada presented her talk alongside Persona anonimizada and Persona anonimizada. Later, they held a press conference and answered questions via the email email_anonimizado."
    )
]


In [None]:
def programa1_presidio(texto):
    entidades = analyzer.analyze(text=texto, language="en", entities=["PERSON", "EMAIL_ADDRESS"])
    resultado = anonymizer.anonymize(
        text=texto,
        analyzer_results=entidades,
        operators=operators
    )
    return resultado.text


**A continuación, se ha definido la función `programa1_presidio(texto)` con el fin de, mediante su invocación en el bucle de evaluación, `resultado = programa1_presidio(original)` de la celda inferior, evaluar la precisión del programa.**

**La función tiene como argumento un texto y detecta las entidades que pertenecen a los tipos *PERSON* y los correos electrónicos, *EMAIL_ADDRESS* mediante el objeto `analyzer`, y luego, reemplaza esas entidades con valores definidos previamente en el diccionario` operators`: "Persona anonimizada" y "email_anonimizado", respectivamente.**


In [None]:
aciertos = 0

for original, esperado in test_corpus_presidio:

    resultado = programa1_presidio(original)
    if resultado == esperado:
        aciertos += 1

errores = len(test_corpus) - aciertos
precision = aciertos / len(test_corpus)

print("Aciertos:", aciertos)
print("Errores:", errores)
print("Precisión:", precision)


Aciertos: 3
Errores: 0
Precisión: 1.0


**Esta celda de código asigna a la variable `aciertos` el valor inicial de cero y, a través del bucle previamente mencionado, recorre cada par de textos del corpus, aplica la función `programa1_presidio `al texto original, y compara el resultado con la salida esperada. Si ambos coinciden exactamente, se considera un acierto.**

**Asimismo, los aciertos se acumulan en la variable así denominada y, después, se calcula el número total de errores mediante una operación básica: el número de textos del corpus menos el de aciertos.**

**La precisión queda establecida como el cociente entre los aciertos y el número total de textos evaluados.**

### **5. Evaluación de la función `anonimizarTodo`**

**Para evaluar la precisión de la función creada en clase se ha seguido el mismo método, pero con un par de salvedades:**

**a) El idioma empleado en este caso es el mismo de aquel con el que ha sido diseñada la función, español.**

**b) La salida considerada correcta incluye la numeración de las personas anonimizadas.**

**De esta forma, se trata de que la evaluación sea justa con ambos programas.**

In [11]:
test_corpus = [
    (
        "María González escribió a juan.perez@gmail.com para confirmar la reunión.",
        "Persona anonimizada 1 escribió a email_anonimizado para confirmar la reunión."
    ),
    (
        "Puedes contactar con Ana Ruiz a través de ana.ruiz@empresa.org.",
        "Puedes contactar con Persona anonimizada 1 a través de email_anonimizado."
    ),
    (
        "Durante la conferencia en Madrid, Laura Fernández presentó su ponencia junto a Miguel Ángel Soto y Carmen Delgado. Más tarde, ofrecieron una rueda de prensa y respondieron dudas en el correo contacto@eventos2025.org.",
        "Durante la conferencia en Madrid, Persona anonimizada 1 presentó su ponencia junto a Persona anonimizada 2 y Persona anonimizada 3. Más tarde, ofrecieron una rueda de prensa y respondieron dudas en el correo email_anonimizado."
    )
]


In [13]:
aciertos = 0
for original, esperado in test_corpus:
    resultado = anonimizarTodo(original)
    if resultado == esperado:
        aciertos += 1

errores = len(test_corpus) - aciertos
precision = aciertos / len(test_corpus)

print("Aciertos:", aciertos)
print("Errores:", errores)
print("Precisión:", precision)


Aciertos: 3
Errores: 0
Precisión: 1.0


### **6. Breve análisis de los resultados**

**La comparación de los resultados muestra que ambos programas presentan una precisión del 100%, por lo que, para una mejor comparativa, se propone evaluar la eficiencia y realizar una evaluación más rigurosa con un corpus real conformado por un número mucho mayor de textos.**

**No obstante, como procedimiento muestral, puede concluirse que nuestro programa es, aparentemente, muy preciso y nos sentimos satisfechos por ello.**