# algoritmo_deidentificacion_regex

Este script permite deidentificar texto libre proveniente de registros clínicos electrónicos.

0. Configura el ambiente.
1. Carga los datos (input)
~~Chequea la sanidad de los datos (backlog)~~
2. Preprocesa los textos ("limpieza")
~~Parametriza el modelo de deidentificación a aplicar (cambaa, regex, regex+spacy)~~
~~Chequea la cantidad de textos y de ser necesario, particiona la tarea.~~
3. Parametriza el output deseado (texto censurado, resaltado, reemplazado, clasificado). 
4. Procesa los textos (aplica las reglas).
5. Devuelve los datos procesados (output)


## Lista de entidades

- PACIENTE: PERSONA
- EDAD: 
- GÉNERO: no se detecta. 
- FAMILIAR: PERSONA
- ~~DRX~~
- ~~FECHA~~
- ~~EFECTOR~~
- ~~INSTITUCIÓN~~: escolares.
- ~~DIRECCIÓN~~
- ~~ZONA~~
- ~~PAÍS~~
- ~~NÚM_TELÉFONO~~
- ~~CORREO_ELECTRÓNICO~~
- ~~NÚM_DNI~~
- ~~NÚM_CUIT_CUIL~~
- ~~PASAPORTE~~
- ~~MATRICULA~~
- ~~EPOF:~~ queda pendiente estrategia para reemplazar por el nombre de la EPof entre <>
- ~~PATENTE~~: no se cuenta con ejemplos (no se detectaron en la base de datos).
- NÚM_SERIE_DISPOSITIVOS: no se detectan.
- ~~OTROS_NÚM~~: no se detectan.
- DUDOSOS: no se detectan.

## 0. Configura el ambiente

In [64]:
import pandas as pd
import os
import re

# This code allows to view full lenght text
pd.set_option("display.max_colwidth", None)

In [65]:
def remove_accents(text: str)  -> str:
    """Removes common accent characters, converts to lowercase."""
    new = re.sub(r'[àáâãäå]', 'a', text)
    new = re.sub(r'[èéêë]', 'e', new)
    new = re.sub(r'[ìíîï]', 'i', new)
    new = re.sub(r'[òóôõö]', 'o', new)
    new = re.sub(r'[ùúûü]', 'u', new)
    new = re.sub(r'[ÀÁÂÃÄÅ]', 'A', new)
    new = re.sub(r'[ÈÉÊË]', 'E', new)
    new = re.sub(r'[ÌÍÎÏ]', 'I', new)
    new = re.sub(r'[ÒÓÔÕÖ]', 'O', new)
    new = re.sub(r'[ÙÚÛÜ]', 'U', new)
    return new

## 1. Carga los datos (input)

In [66]:
INPUT_DIR = '/home/usuario/Documentos/TrabajoEspecial/Datasets/SPG/integral'
TEXT_COLUMN = 'informes'

In [67]:
# Obtener lista de archivos .txt
txt_files = sorted([f for f in os.listdir(INPUT_DIR) if f.endswith(".txt")])

# Mostrar los archivos encontrados
print(txt_files[:5])

data = []

for txt_file in txt_files:
    txt_path = os.path.join(INPUT_DIR, txt_file)
    
    with open(txt_path, 'r', encoding='utf-8') as f:
        texto = f.read()
    
    data.append({
        TEXT_COLUMN: texto
    })

documents = pd.DataFrame(data)

# Mostrar primeras filas
print(documents.head(2))

['000096468.txt', '001956719.txt', '002769099.txt', '003666606.txt', '004954246.txt']
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  

## 2. Preprocesa los textos ("limpieza")

In [68]:
# Genera una nueva columna con el texto preprocesado
documents.rename(columns={TEXT_COLUMN: 'original'}, inplace=True)
documents['preprocessed'] = documents['original'].apply(remove_accents)
# Apply further transformations if necessary

# Remove nan
documents = documents.dropna()
documents.head(2)

Unnamed: 0,original,preprocessed
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."


## 3. Parametriza el output deseado 

Ejemplos de outputs posibles:

1. Texto resaltado: La usuaria <María>
2. Texto censurado: La usuaria xxxx
3. Texto clasificado: La usuaria PACIENTE

In [69]:
from enum import Enum

class AnonymizationMode(Enum):
    HIGHLIGHT = 1
    CENSOR = 2
    REPLACE = 3

# Ingresar el tipo de output deseado
OUTPUT_TYPE = AnonymizationMode.REPLACE

ILLEGAL_CHAR_REGEX = r"[\/<>\:\"\\|\?\*\+\[\]\(\)]"

In [70]:
class RegexAnnonimizer(object):
    """
    The RegexAnonymizer class is designed to find and replace matches of a given regular expression
    within a text string, according to a specified output type. The purpose of this class is to 
    anonymize text by either highlighting, censoring, or replacing specific patterns in the text.

    Attributes:
        regex (str): The regular expression pattern used to identify the text to be anonymized.
        output_type (AnonymizationMode): The mode of anonymization, determining the action taken on matches.
        category (str): The text used for replacement when using the REPLACE output type.
        verbose (bool): Whether to print the replaced text. Useful for debug.

    Methods:
        anonymize(text: str) -> str:
            Anonymizes the input text based on the provided regular expression and output type.
            Depending on the output type, it either highlights, censors, or replaces the matched text.

    Output Types:
        1 (AnonymizationMode.HIGHLIGHT): Wraps the matched text with angle brackets.
            Example: "The user Maria" -> "The user <Maria>"
        2 (AnonymizationMode.CENSOR): Replaces the matched text with 'x' characters, maintaining the length of the original text.
            Example: "The user Maria" -> "The user xxxxx"
        3 (AnonymizationMode.REPLACE): Replaces the matched text with the provided replacement text.
            Example: "The user Maria" -> "The user PACIENTE"
    """
    def __init__(self,
                 content_regex: str,
                 output_type: AnonymizationMode = AnonymizationMode.REPLACE,
                 category: str = None,
                 re_flags: re.RegexFlag = None,
                 verbose: bool = False):
        """
        Initializes the RegexAnonymizer instance with the specified parameters.
        
        Args:
            content_regex (str): The regular expression pattern used to identify the text for anonymization.
            output_type (AnonymizationMode, optional): The mode of anonymization, determining the action taken on matches.
                Default is AnonymizationMode.REPLACE.
            category (str, optional): The text used for replacement when using the REPLACE output type. Required
                if output_type is AnonymizationMode.REPLACE.
            re_flags (re.RegexFlag, optional): flags to pass to re.compile when compiling patterns. Default is None.
            verbose (bool, optional): If True, enables verbose output, providing details about the anonymization
                process. Default is False.
        
        Raises:
            ValueError: If output_type is not an instance of AnonymizationMode.
            ValueError: If output_type is AnonymizationMode.REPLACE and category is not provided.
        """
        if not isinstance(output_type, AnonymizationMode):
            raise ValueError('`output_type` must be an instance of `AnonymizationMode`.')
        self.output_type = output_type
        if re_flags is None:
            self.content_regex = re.compile(content_regex)
        else:
            self.content_regex = re.compile(content_regex, re_flags)
        if self.output_type == AnonymizationMode.REPLACE and not category:
            raise ValueError('When `output_type` is `AnonymizationMode.REPLACE`, you need to provide '
                             'a valid string value for `category`.')
        self.category = category
        self.verbose = verbose

    def _replace_match(self, match: re.Match) -> str:
        """Replaces all matches in string according to self.output_type."""
        matched_name = match.group(0)
        if self.verbose:
            # TODO replace with logger
            print('Replacing', matched_name)

        if self.output_type == AnonymizationMode.HIGHLIGHT:
            return f"<{matched_name}>"
        if self.output_type == AnonymizationMode.CENSOR:
            return "x" * len(matched_name)
        if self.output_type == AnonymizationMode.REPLACE:
            return self.category
        raise ValueError('Output type not suported', self.output_type)

    def _post_process(self, anonymized_text: str) -> str:
        """Collapse consecutive replacements into a single occurrence of category."""
        if self.output_type == AnonymizationMode.REPLACE:
            anonymized_text = re.sub(r'({})(\s+\1)+'.format(self.category), r'\1', anonymized_text)
        return anonymized_text

    def anonymize(self, text: str) -> str:
        """Anonymizes text by replacing content matches, according to output type."""
        # Replace the matched names with the desired output
        anonymized_text = self.content_regex.sub(self._replace_match, text)
        return self._post_process(anonymized_text)

class PrefixRegexAnnonimizer(RegexAnnonimizer):
    """
    A specialized anonymizer that detects and replaces text based on a prefix and content pattern.
    
    This class inherits from RegexAnonymizer and extends its functionality by allowing two regular
    expressions to be specified: one for the prefix and another for the content. If the content is 
    found immediately following the prefix, it is subject to anonymization according to the specified 
    output type. This is particularly useful for identifying and anonymizing structured information, 
    
    such as phone numbers, addresses, or any other context-specific data that is preceded by a 
    particular keyword or phrase.
    
    Attributes:
        prefix_regex (str): A regular expression pattern to identify the prefix text.
        content_regex (str): A regular expression pattern to identify the content to be anonymized.
        output_type (AnonymizationMode): Specifies how the matched content should be anonymized.
        category (str): The replacement text used when the output_type is AnonymizationMode.REPLACE.
        verbose (bool): Determines if detailed information about the anonymization process should be printed.
    
    Methods:
        anonymize(text: str) -> str:
            Processes the input text and replaces occurrences of content following the specified 
            prefix according to the anonymization rules defined by the output_type.
    """
    def __init__(self,
                 prefix_regex: str,
                 content_regex: str,
                 output_type: AnonymizationMode = AnonymizationMode.REPLACE,
                 category: str = None,
                 re_flags: re.RegexFlag = None,
                 verbose: bool = False):
        """
        Initializes the PrefixRegexAnnonimizer instance with the specified parameters.
        
        Args:
            prefix_regex: (str): The regular expression pattern used to identify the prefix before the text to anonymize.
            content_regex: (str): The regular expression pattern used to identify the text for anonymization.
            output_type (AnonymizationMode, optional): The mode of anonymization, determining the action taken on matches.
                Default is AnonymizationMode.REPLACE.
            category (str, optional): The text used for replacement when using the REPLACE output type. Required
                if output_type is AnonymizationMode.REPLACE.
            re_flags (re.RegexFlag, optional): flags to pass to re.compile when compiling patterns. Default is None.
            verbose (bool, optional): If True, enables verbose output, providing details about the anonymization
                process. Default is False.
        
        Raises:
            ValueError: If output_type is not an instance of AnonymizationMode.
            ValueError: If output_type is AnonymizationMode.REPLACE and category is not provided.
        """
        super().__init__(
            content_regex=content_regex,
            output_type=output_type,
            category=category,
            verbose=verbose,
            re_flags=re_flags
        )
        if re_flags is None:
            self.prefix_regex = re.compile(prefix_regex)
            self._full_regex = re.compile(fr'(?P<prefix>{prefix_regex})\s*(?P<content>{content_regex})')
        else:
            self.prefix_regex = re.compile(prefix_regex, re_flags)
            self._full_regex = re.compile(fr'(?P<prefix>{prefix_regex})\s*(?P<content>{content_regex})', re_flags)
    
    def _replace_if_prefix(self, match: re.Match):
        """Replace matches to self. of regex only if matches self._full_regex.""" 
        # Check if a phone-related term precedes the number, and then replace
        return match.group('prefix') + ' ' + self.content_regex.sub(self._replace_match, match.group('content'), count=1)

    def anonymize(self, text: str) -> str:
        """Anonymizes text by replacing content matches that follow prefix matches, according to output type."""
        # Replace the matched names with the desired output
        anonymized_text = self._full_regex.sub(self._replace_if_prefix, text)
        return self._post_process(anonymized_text)

## 4. Procesa los textos (aplica las reglas).

### FECHA

In [71]:
import datetime
## Expresiones regulares para FECHA
regexp_day = r'(\d{1,2}[\/ |-](\d{1,2}|Enero|Ene|Febrero|Feb|Marzo|Mar|Abril|Abr|Mayo|May|Junio|Jun|Julio|Jul|Agosto|Ago|Septiembre|Sep|Octubre|Oct|Noviembre|Nov|Diciembre|Dic)[\/ |-]\d{2,4})'
regexp_month = r'\b(Enero|Ene|Febrero|Feb|Marzo|Mar|Abril|Abr|Mayo|May|Junio|Jun|Julio|Jul|Agosto|Ago|Septiembre|Sep|Octubre|Oct|Noviembre|Nov|Diciembre|Dic)\b'
regexp_year = r'\b(19[89][0-9]|20[0-4][0-9]|{})\b'.format(datetime.date.today().year)
regexp_date = '|'.join([regexp_day, regexp_month, regexp_year])

date_anonymizer = RegexAnnonimizer(
    content_regex=regexp_date,
    category='XFECHAX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE
)
# Ejemplos:
print(date_anonymizer.anonymize("Se programa turno para dìa 21/03/2021. Jueves 17:00hrs, 31 de Marzo."))
print(date_anonymizer.anonymize("Se programa turno para octubre. Control 2023"))

Se programa turno para dìa XFECHAX. Jueves 17:00hrs, 31 de XFECHAX.
Se programa turno para XFECHAX. Control XFECHAX


In [72]:
documents['anonymized'] = documents['preprocessed'].apply(date_anonymizer.anonymize)

In [73]:
documents[documents['anonymized'].str.contains('XFECHAX', case=False)].head(2)

Unnamed: 0,original,preprocessed,anonymized
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 9XFECHAX 48\nTelefono movil: +34 6XFECHAX 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."


### NUM_TELEFONO

In [74]:
## Expresión regular para NUM_TELEFONO
regexp_phone_prefix =  '(tel[ée]fono|(tel(?![aA-zZ]))|celular|(cel(?![aA-zZ])))\s*(?:n\s*[\.\°]|.)?\s*[:\.]?'
regexp_phone_number = '[0-9]+'
separators = r'\s*[:\.]?\s*'

phone_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_phone_prefix,
    content_regex=regexp_phone_number,
    re_flags=re.IGNORECASE,
    category='XTELEFONOX',
    output_type=OUTPUT_TYPE,
)

print(phone_anonymizer.anonymize("Paciente indica llamar a tel 3514790943 sin poder comunicarse."))
print(phone_anonymizer.anonymize("Paciente indica llamar a telefono n° 3514790943 sin poder comunicarse."))
print(phone_anonymizer.anonymize("Rescinde celular durante 400 dias"))
print(phone_anonymizer.anonymize("Proximo turno enero, mandar recordatorio cel: 3514790943"))
print(phone_anonymizer.anonymize("Proximo turno enero, mandar recordatorio cel.: 3514790943"))

Paciente indica llamar a tel 3 XTELEFONOX sin poder comunicarse.
Paciente indica llamar a telefono n°  XTELEFONOX sin poder comunicarse.
Rescinde celular durante 400 dias
Proximo turno enero, mandar recordatorio cel:  XTELEFONOX
Proximo turno enero, mandar recordatorio cel.: XTELEFONOX


  regexp_phone_prefix =  '(tel[ée]fono|(tel(?![aA-zZ]))|celular|(cel(?![aA-zZ])))\s*(?:n\s*[\.\°]|.)?\s*[:\.]?'


In [75]:
documents['anonymized'] = documents.anonymized.apply(phone_anonymizer.anonymize)

In [76]:
documents[documents['anonymized'].str.contains('XNUM_TELEFONOX',case=False)].head(2)

Unnamed: 0,original,preprocessed,anonymized


### CORREO ELECTRÓNICO

In [77]:
## Expresión regular para CORREO ELECTRÓNICO
regexp_email = r'[\w\.-]+@[\w\.-]+\.\w+'

email_anonymizer = RegexAnnonimizer(
    content_regex=regexp_email,
    category='XCORREO_ELECTRONICOX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(email_anonymizer.anonymize("Contactar paciente a fakemail@fakedomain.com"))
print(email_anonymizer.anonymize("Contactar paciente a fakemail@fakedomain.com.ar"))
print(email_anonymizer.anonymize("Paciente refiere conflicto con herman@"))

Contactar paciente a XCORREO_ELECTRONICOX
Contactar paciente a XCORREO_ELECTRONICOX
Paciente refiere conflicto con herman@


In [78]:
documents['anonymized'] = documents['anonymized'].apply(email_anonymizer.anonymize)

In [79]:
documents[documents['anonymized'].str.contains('XCORREO_ELECTRONICOX',case=False)]

Unnamed: 0,original,preprocessed,anonymized
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 48\nTelefono movil: +34 6XFECHAX 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."
2,"Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGénero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCódigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTeléfono fijo: +34 972 65 06 71\nTeléfono móvil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondición de riesgo: Trabajador de Sanitización\n\nDatos asistenciales.\nMédico: Dra. Emma Vicente Santos. NC 588434040. Neuróloga Investigadora en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartín\n\nInforme clínico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTelefono fijo: +34 972 65 06 71\nTelefono movil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 7XFECHAX 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad."
3,"Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGénero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragón\nCódigo postal: 44075\nEmail: manuela@uca.es\nTeléfono fijo: +34 978 49 11 69\nTeléfono móvil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMédico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clínico del paciente:\nPaciente judío de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: manuela@uca.es\nTelefono fijo: +34 978 49 11 69\nTelefono movil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 6XFECHAX 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo."
4,"Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGénero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCódigo postal: 07533\nEmail: alejandro@ciberned.es\nTeléfono fijo: +34 971 59 71 11\nTeléfono móvil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondición de riesgo: Soldador\n\nDatos asistenciales.\nMédico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clínico del paciente:\nPaciente de ascendencia nórdica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: alejandro@ciberned.es\nTelefono fijo: +34 971 59 71 11\nTelefono movil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 11\nTelefono movil: +34 6XFECHAX 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela."
...,...,...,...
995,"Datos del paciente.\nNombre: Concepción Sánchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGénero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellón, Comunidad Valenciana\nCódigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTeléfono fijo: +34 964 68 03 70\nTeléfono móvil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMédico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clínico en Enfermedades Digestivas. Instituto de Investigación Biomédica en Red de Enfermedades Hepáticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clínico del paciente:\nPaciente de ascendencia indígena sudamericana de 13 años de edad, acompañado de su madre. Se realizó un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGenero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTelefono fijo: +34 964 68 03 70\nTelefono movil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 70\nTelefono movil: +34 6XFECHAX 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H."
996,"Datos del paciente.\nNombre: Silvia Carrasco López\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGénero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCódigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTeléfono fijo: +34 913 43 68 26\nTeléfono móvil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMédico: Dra. Remedios Casas Martínez. NC 002225764. Residente de 3° año en Oftalmología. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Málaga Oeste\n\nInforme clínico del paciente:\nPaciente exfumador de 59 años de edad. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGenero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTelefono fijo: +34 913 43 68 26\nTelefono movil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 26\nTelefono movil: +34 6XFECHAX 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105."
997,"Datos del paciente.\nNombre: María Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGénero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCódigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTeléfono fijo: +34 926 82 07 12\nTeléfono móvil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondición de riesgo: Soldado\n\nDatos asistenciales.\nMédico: Dra. Sofía Zamora Bermudez. NC 674953567. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de León\nMatrícula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGenero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTelefono fijo: +34 926 82 07 12\nTelefono movil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 12\nTelefono movil: +34 6XFECHAX 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre."
998,"Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGénero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Úbeda, Salamanca, Castilla y León\nCódigo postal: 37590\nEmail: montoya@ciberehd.org\nTeléfono fijo: +34 923 00 92 67\nTeléfono móvil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondición de riesgo: Pintor de Construcción\n\nDatos asistenciales.\nMédico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcalá de Henares\nMatrícula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clínico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.239.21, con dirección MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGenero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: montoya@ciberehd.org\nTelefono fijo: +34 923 00 92 67\nTelefono movil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 67\nTelefono movil: +34 6XFECHAX 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14."


### NUM_DNI

In [80]:
## Expresión regular para NUM_DNI

regexp_dni_prefix = r'(d\.n\.i|dni|doc(?= )|documento)(\sn\s?\.?\°?)?\s*[:\.]?\s*'
regexp_dni_numbers = r'\b\d{1,3}(?:\.*\d{3})*\b'

dni_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_dni_prefix,
    content_regex=regexp_dni_numbers,
    re_flags=re.IGNORECASE,
    category='XNUM_DNIX',
    output_type=OUTPUT_TYPE,
)

print(dni_anonymizer.anonymize("Paciente dni 27.384.234 control prenatal semana 27"))
print(dni_anonymizer.anonymize("Paciente dni n° 27.384.234 control prenatal semana 27"))
print(dni_anonymizer.anonymize("Paciente dni n ° 27.384.234 control prenatal semana 27"))
print(dni_anonymizer.anonymize("Paciente dni 27384234, control prenatal"))
print(dni_anonymizer.anonymize("Paciente dni: 27384234 control prenatal"))
print(dni_anonymizer.anonymize("Para mas detalles ver documento 25"))
print(dni_anonymizer.anonymize("Refiere extravio dni sin sintomatologia tel 27384234"))

Paciente dni  XNUM_DNIX control prenatal semana 27
Paciente dni n°  XNUM_DNIX control prenatal semana 27
Paciente dni n °  XNUM_DNIX control prenatal semana 27
Paciente dni  XNUM_DNIX, control prenatal
Paciente dni:  XNUM_DNIX control prenatal
Para mas detalles ver documento  XNUM_DNIX
Refiere extravio dni sin sintomatologia tel 27384234


In [81]:
documents['anonymized'] = documents['anonymized'].apply(dni_anonymizer.anonymize)

In [82]:
documents[documents['anonymized'].str.contains('XNUM_DNIX',case=False)]

Unnamed: 0,original,preprocessed,anonymized


### NUM_CUIT_CUIL

In [83]:
## Expresión regular para NUM_CUIT_CUIL
regexp_cuil_prefix = r'(c.u.i.l.|cuil|c.u.i.t|cuit)(\sn\s?\.?\°?)?\s*[:\.]?\s*'
# Numbers, or numbers with . or -
regexp_cuil_numbers = r'\b(?:\d(?:[\.\-]\d)*)+\b'

cuit_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_cuil_prefix,
    content_regex=regexp_cuil_numbers,
    re_flags=re.IGNORECASE,
    category='XNUM_CUIT_CUILX',
    output_type=OUTPUT_TYPE,
)

print(cuit_anonymizer.anonymize("Paciente CUIT 25-27.384.234-4 control prenatal semana 27"))
print(cuit_anonymizer.anonymize("Paciente cuil 25-27384234-4, control prenatal"))
print(cuit_anonymizer.anonymize("Paciente c.u.i.t 25273842344 control prenatal"))
print(cuit_anonymizer.anonymize("Refiere extravio cuit sin sintomatologia tel 27384234"))

Paciente CUIT  XNUM_CUIT_CUILX control prenatal semana 27
Paciente cuil  XNUM_CUIT_CUILX, control prenatal
Paciente c.u.i.t  XNUM_CUIT_CUILX control prenatal
Refiere extravio cuit sin sintomatologia tel 27384234


In [84]:
documents['anonymized'] = documents['anonymized'].apply(cuit_anonymizer.anonymize)

In [85]:
documents[documents['anonymized'].str.contains('XNUM_CUIT_CUILX',case=False)]

Unnamed: 0,original,preprocessed,anonymized


### PASAPORTE

In [86]:
## Expresión regular para Pasaporte

regexp_passport_prefix = r'pasaporte(\sn\s?\.?\°?)?\s*[:\.]?\s*'
# Between 3 and 10 alphanumeric characters with at least one number
regexp_passport_numbers = r'\b[a-zA-Z0-9]*[0-9][a-zA-Z0-9]*\b'

passport_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_passport_prefix,
    content_regex=regexp_passport_numbers,
    re_flags=re.IGNORECASE,
    category='XPASAPORTEX',
    output_type=OUTPUT_TYPE,
)

print(passport_anonymizer.anonymize("Paciente pasaporte AAA342034, control prenatal semana 27"))
print(passport_anonymizer.anonymize("Paciente pasaporte n AAA342034, control prenatal semana 27"))
print(passport_anonymizer.anonymize("Paciente pasaporte n°: AAA342034, control prenatal semana 27"))
print(passport_anonymizer.anonymize("Paciente pasaporte 2527384234"))
print(passport_anonymizer.anonymize("Refiere extravio pasaporte sin sintomatologia tel 27384234"))

Paciente pasaporte  XPASAPORTEX, control prenatal semana 27
Paciente pasaporte n  XPASAPORTEX, control prenatal semana 27
Paciente pasaporte n°:  XPASAPORTEX, control prenatal semana 27
Paciente pasaporte  XPASAPORTEX
Refiere extravio pasaporte sin sintomatologia tel 27384234


In [87]:
documents['anonymized'] = documents['anonymized'].apply(passport_anonymizer.anonymize)

In [88]:
documents[documents['anonymized'].str.contains('XPASAPORTEX',case=False)]

Unnamed: 0,original,preprocessed,anonymized


### MATRICULA

In [89]:
## Expresión regular para MATRICULA
regexp_license_prefix = r'\bm(\.?)(p|n)(\.?)\s*[:\.]?\s*'
regexp_license_numbers = r'\b[0-9]{3,}\b'

license_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_license_prefix,
    content_regex=regexp_license_numbers,
    re_flags=re.IGNORECASE,
    category='XMATRICULAX',
    output_type=OUTPUT_TYPE,
)

print(license_anonymizer.anonymize("Atendido por dr. Ortiz mp 23411, control prenatal semana 27"))
print(license_anonymizer.anonymize("Atendido por dr. Ortiz m.p. 23411 control prenatal semana 27"))
print(license_anonymizer.anonymize("Atendido por dr. Ortiz m.n.: 23411 control prenatal semana 27"))
print(license_anonymizer.anonymize("Refiere extravio m.p. sin sintomatologia tel 27384234"))

Atendido por dr. Ortiz mp  XMATRICULAX, control prenatal semana 27
Atendido por dr. Ortiz m.p.  XMATRICULAX control prenatal semana 27
Atendido por dr. Ortiz m.n.:  XMATRICULAX control prenatal semana 27
Refiere extravio m.p. sin sintomatologia tel 27384234


In [90]:
documents['anonymized'] = documents['anonymized'].apply(license_anonymizer.anonymize)

In [91]:
documents[documents['anonymized'].str.contains('XMATRICULAX',case=False)]

Unnamed: 0,original,preprocessed,anonymized


### PATENTE

In [92]:
## Expresión regular para PATENTE
regexp_license_plate = r'\b([aA-zZ]{3}[0-9]{3})|([aA-zZ]{2}[0-9]{3}[aA-zZ]{2})\b'

license_plate_anonymizer = RegexAnnonimizer(
    content_regex=regexp_license_plate,
    category='XPATENTEX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(license_plate_anonymizer.anonymize("Auto patente AA345QP fuera de servicio"))
print(license_plate_anonymizer.anonymize("Auto patente aub325- fuera de servicio"))

Auto patente XPATENTEX fuera de servicio
Auto patente XPATENTEX- fuera de servicio


In [93]:
documents['anonymized'] = documents['anonymized'].apply(license_plate_anonymizer.anonymize)

In [94]:
documents[documents['anonymized'].str.contains('XPATENTEX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
16,"Datos del paciente.\nNombre: Sonia Giménez Mateo\nDNI: 28458568R\nFecha de nacimiento: 12/10/1979\nGénero: F\nDomicilio: Calle de Amor de Dios 28\nCiudad: Málaga, Región de Murcia, Región de Murcia\nCódigo postal: 30174\nEmail: sonia-mateo@udc.es\nTeléfono fijo: +34 968 81 89 78\nTeléfono móvil: +34 668 04 26 48\nNHC: 3502518\nNASS: 148472849379\n\nDatos asistenciales.\nMédico: Dra. Remedios Torres Gutiérrez. NC 729610890. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 22/01/1987\nHospital: Hospital Universitario de Basurto\nMatrícula del coche: 4884RKT\nModelo: Toyota RAV4\nVIN: VSU906M506F437481\n\nInforme clínico del paciente:\nPaciente de ascendencia gitana de 7 años de edad, acompañado de su hermana. Se registró una sesión de reconocimiento facial, el código obtenido para revisarla es FZ253TPZ757. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es OS931MNR959.","Datos del paciente.\nNombre: Sonia Gimenez Mateo\nDNI: 28458568R\nFecha de nacimiento: 12/10/1979\nGenero: F\nDomicilio: Calle de Amor de Dios 28\nCiudad: Malaga, Region de Murcia, Region de Murcia\nCodigo postal: 30174\nEmail: sonia-mateo@udc.es\nTelefono fijo: +34 968 81 89 78\nTelefono movil: +34 668 04 26 48\nNHC: 3502518\nNASS: 148472849379\n\nDatos asistenciales.\nMedico: Dra. Remedios Torres Gutierrez. NC 729610890. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 22/01/1987\nHospital: Hospital Universitario de Basurto\nMatricula del coche: 4884RKT\nModelo: Toyota RAV4\nVIN: VSU906M506F437481\n\nInforme clinico del paciente:\nPaciente de ascendencia gitana de 7 años de edad, acompañado de su hermana. Se registro una sesion de reconocimiento facial, el codigo obtenido para revisarla es FZ253TPZ757. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es OS931MNR959.","Datos del paciente.\nNombre: Sonia Gimenez Mateo\nDNI: 28458568R\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle de Amor de Dios 28\nCiudad: Malaga, Region de Murcia, Region de Murcia\nCodigo postal: 30174\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 78\nTelefono movil: +34 6XFECHAX 48\nNHC: 3502518\nNASS: 148472849379\n\nDatos asistenciales.\nMedico: Dra. Remedios Torres Gutierrez. NC 729610890. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nHospital: Hospital Universitario de Basurto\nMatricula del coche: 4884RKT\nModelo: Toyota RAV4\nVIN: XPATENTEXM506F437481\n\nInforme clinico del paciente:\nPaciente de ascendencia gitana de 7 años de edad, acompañado de su hermana. Se registro una sesion de reconocimiento facial, el codigo obtenido para revisarla es FZ253TPZ757. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es OS931MNR959."
33,"Datos del paciente.\nNombre: Borja Silva Mateos\nDNI: 60347220G\nFecha de nacimiento: 11/03/2005\nGénero: H\nDomicilio: Calle de Ferraz 63\nCiudad: Santa Cruz de Tenerife, Teruel, Aragón\nCódigo postal: 44128\nEmail: u9kIJ@ual.es\nTeléfono fijo: +34 978 64 47 30\nTeléfono móvil: +34 678 69 16 51\nNHC: 6566985\nCondición de riesgo: Técnico de Laboratorio\n\nDatos asistenciales.\nMédico: Dr. Juan José Márquez Otero. NC 792000217. Residente de 4° año en Endocrinología. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 13/04/2021\nEpisodio: 76196258\nHospital: Hospital Universitario La Paz\nMatrícula del coche: 3109HGC\nModelo: Toyota Corolla\nVIN: VSS174DQ75N979276\n\nInforme clínico del paciente:\nPaciente vegetariano de 16 años de edad, acompañado de su hija. Se registró una sesión de huella dactilar, el código obtenido para revisarla es YO026ZOB747.","Datos del paciente.\nNombre: Borja Silva Mateos\nDNI: 60347220G\nFecha de nacimiento: 11/03/2005\nGenero: H\nDomicilio: Calle de Ferraz 63\nCiudad: Santa Cruz de Tenerife, Teruel, Aragon\nCodigo postal: 44128\nEmail: u9kIJ@ual.es\nTelefono fijo: +34 978 64 47 30\nTelefono movil: +34 678 69 16 51\nNHC: 6566985\nCondicion de riesgo: Tecnico de Laboratorio\n\nDatos asistenciales.\nMedico: Dr. Juan Jose Marquez Otero. NC 792000217. Residente de 4° año en Endocrinologia. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 13/04/2021\nEpisodio: 76196258\nHospital: Hospital Universitario La Paz\nMatricula del coche: 3109HGC\nModelo: Toyota Corolla\nVIN: VSS174DQ75N979276\n\nInforme clinico del paciente:\nPaciente vegetariano de 16 años de edad, acompañado de su hija. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es YO026ZOB747.","Datos del paciente.\nNombre: Borja Silva Mateos\nDNI: 60347220G\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle de Ferraz 63\nCiudad: Santa Cruz de Tenerife, Teruel, Aragon\nCodigo postal: 44128\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 30\nTelefono movil: +34 6XFECHAX 51\nNHC: 6566985\nCondicion de riesgo: Tecnico de Laboratorio\n\nDatos asistenciales.\nMedico: Dr. Juan Jose Marquez Otero. NC 792000217. Residente de 4° año en Endocrinologia. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nEpisodio: 76196258\nHospital: Hospital Universitario La Paz\nMatricula del coche: 3109HGC\nModelo: Toyota Corolla\nVIN: XPATENTEXDQ75N979276\n\nInforme clinico del paciente:\nPaciente vegetariano de 16 años de edad, acompañado de su hija. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es YO026ZOB747."
76,"Datos del paciente.\nNombre: Carla Costa Tomas\nDNI: 41653699D\nFecha de nacimiento: 13/07/2003\nGénero: Femenino\nDomicilio: Calle del Marqués de Urquijo 17\nCiudad: Ciudad Real, Barcelona, Cataluña\nCódigo postal: 08314\nEmail: carlacosta-tomas1789@icloud.com\nTeléfono fijo: +34 937 17 58 17\nTeléfono móvil: +34 630 32 55 13\nNHC: 8506538\nCondición de riesgo: Técnico de Cuidados Auxiliares de Enfermería\n\nDatos asistenciales.\nMédico: Dr. Marcos Hidalgo Navarro. NC 912637984. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 30/11/2020\nCentro de salud: Centro de Salud Pozuelo de Alarcón\nMatrícula del coche: 4404KEF\nModelo: Jeep Wrangler\nVIN: VSE198TH61G794235\n\nInforme clínico del paciente:\nPaciente de descendencia africana de 17 años de edad, acompañado de su madre. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es KB192NUG355.","Datos del paciente.\nNombre: Carla Costa Tomas\nDNI: 41653699D\nFecha de nacimiento: 13/07/2003\nGenero: Femenino\nDomicilio: Calle del Marques de Urquijo 17\nCiudad: Ciudad Real, Barcelona, Cataluña\nCodigo postal: 08314\nEmail: carlacosta-tomas1789@icloud.com\nTelefono fijo: +34 937 17 58 17\nTelefono movil: +34 630 32 55 13\nNHC: 8506538\nCondicion de riesgo: Tecnico de Cuidados Auxiliares de Enfermeria\n\nDatos asistenciales.\nMedico: Dr. Marcos Hidalgo Navarro. NC 912637984. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 30/11/2020\nCentro de salud: Centro de Salud Pozuelo de Alarcon\nMatricula del coche: 4404KEF\nModelo: Jeep Wrangler\nVIN: VSE198TH61G794235\n\nInforme clinico del paciente:\nPaciente de descendencia africana de 17 años de edad, acompañado de su madre. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KB192NUG355.","Datos del paciente.\nNombre: Carla Costa Tomas\nDNI: 41653699D\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle del Marques de Urquijo 17\nCiudad: Ciudad Real, Barcelona, Cataluña\nCodigo postal: 08314\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 17\nTelefono movil: +34 6XFECHAX 13\nNHC: 8506538\nCondicion de riesgo: Tecnico de Cuidados Auxiliares de Enfermeria\n\nDatos asistenciales.\nMedico: Dr. Marcos Hidalgo Navarro. NC 912637984. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Pozuelo de Alarcon\nMatricula del coche: 4404KEF\nModelo: Jeep Wrangler\nVIN: XPATENTEXTH61G794235\n\nInforme clinico del paciente:\nPaciente de descendencia africana de 17 años de edad, acompañado de su madre. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KB192NUG355."
129,"Datos del paciente.\nNombre: Arturo Marcos Ramos\nDNI: 62826618W\nFecha de nacimiento: 28/07/1975\nGénero: Masculino\nDomicilio: Calle de Áncora 65, 1V\nCiudad: Orense, Barcelona, Cataluña\nCódigo postal: 08034\nEmail: arturo.ramos@aol.com\nTeléfono fijo: +34 939 40 27 60\nFAX: +34 931 61 41 68\nNHC: 1361726\nCondición de riesgo: Limpiador\n\nDatos asistenciales.\nMédico: Dra. Natalia Méndez Mesa. NC 615594360. Investigadora Clínica en Síndromes Raros. Instituto de Investigación Biomédica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 13/12/1976\nEpisodio: 75291213\nCentro de salud: Centro de Salud Boadilla del Monte\nMatrícula del coche: 4775NFN\nModelo: Toyota RAV4\nVIN: VSN824GLV5O101241\n\nInforme clínico del paciente:\nPaciente no fumador de un año de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Arturo Marcos Ramos\nDNI: 62826618W\nFecha de nacimiento: 28/07/1975\nGenero: Masculino\nDomicilio: Calle de Ancora 65, 1V\nCiudad: Orense, Barcelona, Cataluña\nCodigo postal: 08034\nEmail: arturo.ramos@aol.com\nTelefono fijo: +34 939 40 27 60\nFAX: +34 931 61 41 68\nNHC: 1361726\nCondicion de riesgo: Limpiador\n\nDatos asistenciales.\nMedico: Dra. Natalia Mendez Mesa. NC 615594360. Investigadora Clinica en Sindromes Raros. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 13/12/1976\nEpisodio: 75291213\nCentro de salud: Centro de Salud Boadilla del Monte\nMatricula del coche: 4775NFN\nModelo: Toyota RAV4\nVIN: VSN824GLV5O101241\n\nInforme clinico del paciente:\nPaciente no fumador de un año de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Arturo Marcos Ramos\nDNI: 62826618W\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle de Ancora 65, 1V\nCiudad: Orense, Barcelona, Cataluña\nCodigo postal: 08034\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 60\nFAX: +34 9XFECHAX 68\nNHC: 1361726\nCondicion de riesgo: Limpiador\n\nDatos asistenciales.\nMedico: Dra. Natalia Mendez Mesa. NC 615594360. Investigadora Clinica en Sindromes Raros. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 75291213\nCentro de salud: Centro de Salud Boadilla del Monte\nMatricula del coche: 4775NFN\nModelo: Toyota RAV4\nVIN: XPATENTEXGLV5O101241\n\nInforme clinico del paciente:\nPaciente no fumador de un año de edad, acompañado de su abuela."
331,"Datos del paciente.\nNombre: Natalia Padilla De la Fuente\nDNI: 93306180X\nFecha de nacimiento: 19/02/1990\nGénero: Femenino\nDomicilio: Calle de Fuencarral 29, 10B\nCiudad: Aranda de Duero, Orense, Galicia\nCódigo postal: 32229\nEmail: natalia-padilla_delafuente@aol.com\nTeléfono fijo: +34 988 92 34 73\nTeléfono móvil: +34 788 64 25 84\nNHC: 5052916\nNASS: 097272229925\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dra. María Asunción Crespo Guzman. NC 838560104. Especialista en Enfermedades Infecciosas. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 01/09/2018\nEpisodio: 61727998\nCentro de salud: Centro de Salud San Blas\nMatrícula del coche: 3650OVO\nModelo: Mazda CX-5\nVIN: VSQ368DR70V377478\n\nInforme clínico del paciente:\nPaciente vegano de 28 años de edad, acompañado de su hija.","Datos del paciente.\nNombre: Natalia Padilla De la Fuente\nDNI: 93306180X\nFecha de nacimiento: 19/02/1990\nGenero: Femenino\nDomicilio: Calle de Fuencarral 29, 10B\nCiudad: Aranda de Duero, Orense, Galicia\nCodigo postal: 32229\nEmail: natalia-padilla_delafuente@aol.com\nTelefono fijo: +34 988 92 34 73\nTelefono movil: +34 788 64 25 84\nNHC: 5052916\nNASS: 097272229925\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dra. Maria Asuncion Crespo Guzman. NC 838560104. Especialista en Enfermedades Infecciosas. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 01/09/2018\nEpisodio: 61727998\nCentro de salud: Centro de Salud San Blas\nMatricula del coche: 3650OVO\nModelo: Mazda CX-5\nVIN: VSQ368DR70V377478\n\nInforme clinico del paciente:\nPaciente vegano de 28 años de edad, acompañado de su hija.","Datos del paciente.\nNombre: Natalia Padilla De la Fuente\nDNI: 93306180X\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle de Fuencarral 29, 10B\nCiudad: Aranda de Duero, Orense, Galicia\nCodigo postal: 32229\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 73\nTelefono movil: +34 7XFECHAX 84\nNHC: 5052916\nNASS: 097272229925\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dra. Maria Asuncion Crespo Guzman. NC 838560104. Especialista en Enfermedades Infecciosas. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 61727998\nCentro de salud: Centro de Salud San Blas\nMatricula del coche: 3650OVO\nModelo: Mazda CX-5\nVIN: XPATENTEXDR70V377478\n\nInforme clinico del paciente:\nPaciente vegano de 28 años de edad, acompañado de su hija."
489,"Datos del paciente.\nNombre: Ismael De la Fuente Ferrer\nDNI: 11401440H\nFecha de nacimiento: 09/01/1935\nGénero: Hombre\nDomicilio: Calle Mayor 83\nCiudad: Jaén, Santa Cruz de Tenerife, Canarias\nCódigo postal: 38674\nEmail: ismael@ciberehd.org\nTeléfono fijo: +34 922 31 47 30\nTeléfono móvil: +34 622 56 87 79\nNHC: 8362853\nNASS: 734963587204\nCondición de riesgo: Trabajador de Minería\n\nDatos asistenciales.\nMédico: Dr. Jorge Lara Rivera. NC 749350177. Residente de 2° año en Pediatría. Instituto de Investigación Biomédica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 06/12/2003\nEpisodio: 31724173\nHospital: Hospital Regional Universitario de Málaga\nMatrícula del coche: 6561POQ\nModelo: Toyota Corolla\nVIN: VSZ3658I9FS625848\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 68 años de edad, acompañado de su hermana.","Datos del paciente.\nNombre: Ismael De la Fuente Ferrer\nDNI: 11401440H\nFecha de nacimiento: 09/01/1935\nGenero: Hombre\nDomicilio: Calle Mayor 83\nCiudad: Jaen, Santa Cruz de Tenerife, Canarias\nCodigo postal: 38674\nEmail: ismael@ciberehd.org\nTelefono fijo: +34 922 31 47 30\nTelefono movil: +34 622 56 87 79\nNHC: 8362853\nNASS: 734963587204\nCondicion de riesgo: Trabajador de Mineria\n\nDatos asistenciales.\nMedico: Dr. Jorge Lara Rivera. NC 749350177. Residente de 2° año en Pediatria. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 06/12/2003\nEpisodio: 31724173\nHospital: Hospital Regional Universitario de Malaga\nMatricula del coche: 6561POQ\nModelo: Toyota Corolla\nVIN: VSZ3658I9FS625848\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 68 años de edad, acompañado de su hermana.","Datos del paciente.\nNombre: Ismael De la Fuente Ferrer\nDNI: 11401440H\nFecha de nacimiento: XFECHAX\nGenero: Hombre\nDomicilio: Calle Mayor 83\nCiudad: Jaen, Santa Cruz de Tenerife, Canarias\nCodigo postal: 38674\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 30\nTelefono movil: +34 6XFECHAX 79\nNHC: 8362853\nNASS: 734963587204\nCondicion de riesgo: Trabajador de Mineria\n\nDatos asistenciales.\nMedico: Dr. Jorge Lara Rivera. NC 749350177. Residente de 2° año en Pediatria. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 31724173\nHospital: Hospital Regional Universitario de Malaga\nMatricula del coche: 6561POQ\nModelo: Toyota Corolla\nVIN: XPATENTEX8I9FS625848\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 68 años de edad, acompañado de su hermana."
602,"Datos del paciente.\nNombre: Ángel Rivas Estevez\nDNI: 51081656J\nFecha de nacimiento: 15/10/2014\nGénero: Masculino\nDomicilio: Calle de Fortuny 57, 8J\nCiudad: Torrelodones, Álava, Pais Vasco\nCódigo postal: 01674\nEmail: angel_rivasestevez290@ciberned.es\nTeléfono fijo: +34 945 33 13 89\nTeléfono móvil: +34 745 19 90 72\nNHC: 9847442\nNASS: 652100069553\nCondición de riesgo: Fabricante\n\nDatos asistenciales.\nMédico: Dr. Nicolás Simon Varela. NC 805731645. Residente de 3° año en Oftalmología. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 11/02/2016\nHospital: Hospital Universitario Río Hortega\nMatrícula del coche: 7224LXS\nModelo: Ford F-150\nVIN: VSD5236YPTL605726\n\nInforme clínico del paciente:\nPaciente de ascendencia asiática oriental de un año de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Angel Rivas Estevez\nDNI: 51081656J\nFecha de nacimiento: 15/10/2014\nGenero: Masculino\nDomicilio: Calle de Fortuny 57, 8J\nCiudad: Torrelodones, Alava, Pais Vasco\nCodigo postal: 01674\nEmail: angel_rivasestevez290@ciberned.es\nTelefono fijo: +34 945 33 13 89\nTelefono movil: +34 745 19 90 72\nNHC: 9847442\nNASS: 652100069553\nCondicion de riesgo: Fabricante\n\nDatos asistenciales.\nMedico: Dr. Nicolas Simon Varela. NC 805731645. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 11/02/2016\nHospital: Hospital Universitario Rio Hortega\nMatricula del coche: 7224LXS\nModelo: Ford F-150\nVIN: VSD5236YPTL605726\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica oriental de un año de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Angel Rivas Estevez\nDNI: 51081656J\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle de Fortuny 57, 8J\nCiudad: Torrelodones, Alava, Pais Vasco\nCodigo postal: 01674\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 89\nTelefono movil: +34 7XFECHAX 72\nNHC: 9847442\nNASS: 652100069553\nCondicion de riesgo: Fabricante\n\nDatos asistenciales.\nMedico: Dr. Nicolas Simon Varela. NC 805731645. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nHospital: Hospital Universitario Rio Hortega\nMatricula del coche: 7224LXS\nModelo: Ford F-150\nVIN: XPATENTEX6YPTL605726\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica oriental de un año de edad, acompañado de su abuela."
740,"Datos del paciente.\nNombre: Izan Blazquez Iglesias\nDNI: 98239436L\nFecha de nacimiento: 01/04/1946\nGénero: V\nDomicilio: Calle de San Bernardo 26\nCiudad: Vilanova i la Geltrú, Menorca, Islas Baleares\nCódigo postal: 07120\nEmail: izanblazquez.iglesias@udc.es\nTeléfono fijo: +34 971 52 42 87\nTeléfono móvil: +34 771 76 00 03\nNHC: 9289479\nNASS: 029449249741\nCondición de riesgo: Trabajador de Línea de Producción\n\nDatos asistenciales.\nMédico: Dra. Fátima Heredia Montes. NC 488530099. Residente de 2° año en Pediatría. Instituto de Investigación Biomédica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 31/12/1948\nHospital: Hospital Universitario de Cabueñes\nMatrícula del coche: 9908EGP\nModelo: Ram 1500\nVIN: VSW58407PGV209796\n\nInforme clínico del paciente:\nPaciente de ascendencia africana del norte de 2 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: Izan Blazquez Iglesias\nDNI: 98239436L\nFecha de nacimiento: 01/04/1946\nGenero: V\nDomicilio: Calle de San Bernardo 26\nCiudad: Vilanova i la Geltru, Menorca, Islas Baleares\nCodigo postal: 07120\nEmail: izanblazquez.iglesias@udc.es\nTelefono fijo: +34 971 52 42 87\nTelefono movil: +34 771 76 00 03\nNHC: 9289479\nNASS: 029449249741\nCondicion de riesgo: Trabajador de Linea de Produccion\n\nDatos asistenciales.\nMedico: Dra. Fatima Heredia Montes. NC 488530099. Residente de 2° año en Pediatria. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 31/12/1948\nHospital: Hospital Universitario de Cabueñes\nMatricula del coche: 9908EGP\nModelo: Ram 1500\nVIN: VSW58407PGV209796\n\nInforme clinico del paciente:\nPaciente de ascendencia africana del norte de 2 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: Izan Blazquez Iglesias\nDNI: 98239436L\nFecha de nacimiento: XFECHAX\nGenero: V\nDomicilio: Calle de San Bernardo 26\nCiudad: Vilanova i la Geltru, Menorca, Islas Baleares\nCodigo postal: 07120\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 87\nTelefono movil: +34 7XFECHAX 03\nNHC: 9289479\nNASS: 029449249741\nCondicion de riesgo: Trabajador de Linea de Produccion\n\nDatos asistenciales.\nMedico: Dra. Fatima Heredia Montes. NC 488530099. Residente de 2° año en Pediatria. Instituto de Investigacion Biomedica en Red de Enfermedades Raras (CIBERER). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nHospital: Hospital Universitario de Cabueñes\nMatricula del coche: 9908EGP\nModelo: Ram 1500\nVIN: XPATENTEX07PGV209796\n\nInforme clinico del paciente:\nPaciente de ascendencia africana del norte de 2 años de edad, acompañado de su padre."
773,"Datos del paciente.\nNombre: Mohammed Pardo Campos\nDNI: 42077094C\nFecha de nacimiento: 15/12/1984\nGénero: Varón\nDomicilio: Calle del Marqués de Cubas 20, 7B\nCiudad: Gandía, Granada, Andalucía\nCódigo postal: 18540\nEmail: pardo.campos1370@us.es\nTeléfono fijo: +34 958 44 39 15\nTeléfono móvil: +34 758 71 14 00\nNHC: 3987664\nNASS: 312744005702\nCondición de riesgo: Dentista\n\nDatos asistenciales.\nMédico: Dr. Antonio Santana Flores. NC 934189127. Residente de 4° año en Medicina Interna. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 26/08/1991\nEpisodio: 52568202\nHospital: Hospital Universitari de Bellvitge\nMatrícula del coche: 5957SJL\nModelo: Chevrolet Silverado\nVIN: VSE290IT3VZ794125\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Mohammed Pardo Campos\nDNI: 42077094C\nFecha de nacimiento: 15/12/1984\nGenero: Varon\nDomicilio: Calle del Marques de Cubas 20, 7B\nCiudad: Gandia, Granada, Andalucia\nCodigo postal: 18540\nEmail: pardo.campos1370@us.es\nTelefono fijo: +34 958 44 39 15\nTelefono movil: +34 758 71 14 00\nNHC: 3987664\nNASS: 312744005702\nCondicion de riesgo: Dentista\n\nDatos asistenciales.\nMedico: Dr. Antonio Santana Flores. NC 934189127. Residente de 4° año en Medicina Interna. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 26/08/1991\nEpisodio: 52568202\nHospital: Hospital Universitari de Bellvitge\nMatricula del coche: 5957SJL\nModelo: Chevrolet Silverado\nVIN: VSE290IT3VZ794125\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Mohammed Pardo Campos\nDNI: 42077094C\nFecha de nacimiento: XFECHAX\nGenero: Varon\nDomicilio: Calle del Marques de Cubas 20, 7B\nCiudad: Gandia, Granada, Andalucia\nCodigo postal: 18540\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 7XFECHAX 00\nNHC: 3987664\nNASS: 312744005702\nCondicion de riesgo: Dentista\n\nDatos asistenciales.\nMedico: Dr. Antonio Santana Flores. NC 934189127. Residente de 4° año en Medicina Interna. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 52568202\nHospital: Hospital Universitari de Bellvitge\nMatricula del coche: 5957SJL\nModelo: Chevrolet Silverado\nVIN: XPATENTEXIT3VZ794125\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre."
794,"Datos del paciente.\nNombre: Christian Calvo Molina\nDNI: 92126748H\nFecha de nacimiento: 26/09/1973\nGénero: Masculino\nDomicilio: Calle de Bravo Murillo 58\nCiudad: Orense, Santa Cruz de Tenerife, Canarias\nCódigo postal: 38172\nEmail: christian-calvo.molina@ual.es\nTeléfono fijo: +34 922 92 46 18\nTeléfono móvil: +34 622 90 61 68\nNHC: 8179427\nNASS: 209104432091\n\nDatos asistenciales.\nMédico: Dra. Magdalena Ibáñez Arroyo. NC 428101765. Cardióloga de Unidad de Cuidados Intensivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 29/12/2011\nEpisodio: 01691686\nHospital: Hospital Universitario Virgen del Rocío\nMatrícula del coche: 3245ZMB\nModelo: Mazda CX-5\nVIN: VSQ401KFPTO158829\n\nInforme clínico del paciente:\nPaciente fumador de 38 años de edad, acompañado de su compañero de estudio.","Datos del paciente.\nNombre: Christian Calvo Molina\nDNI: 92126748H\nFecha de nacimiento: 26/09/1973\nGenero: Masculino\nDomicilio: Calle de Bravo Murillo 58\nCiudad: Orense, Santa Cruz de Tenerife, Canarias\nCodigo postal: 38172\nEmail: christian-calvo.molina@ual.es\nTelefono fijo: +34 922 92 46 18\nTelefono movil: +34 622 90 61 68\nNHC: 8179427\nNASS: 209104432091\n\nDatos asistenciales.\nMedico: Dra. Magdalena Ibañez Arroyo. NC 428101765. Cardiologa de Unidad de Cuidados Intensivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 29/12/2011\nEpisodio: 01691686\nHospital: Hospital Universitario Virgen del Rocio\nMatricula del coche: 3245ZMB\nModelo: Mazda CX-5\nVIN: VSQ401KFPTO158829\n\nInforme clinico del paciente:\nPaciente fumador de 38 años de edad, acompañado de su compañero de estudio.","Datos del paciente.\nNombre: Christian Calvo Molina\nDNI: 92126748H\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle de Bravo Murillo 58\nCiudad: Orense, Santa Cruz de Tenerife, Canarias\nCodigo postal: 38172\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 18\nTelefono movil: +34 6XFECHAX 68\nNHC: 8179427\nNASS: 209104432091\n\nDatos asistenciales.\nMedico: Dra. Magdalena Ibañez Arroyo. NC 428101765. Cardiologa de Unidad de Cuidados Intensivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 01691686\nHospital: Hospital Universitario Virgen del Rocio\nMatricula del coche: 3245ZMB\nModelo: Mazda CX-5\nVIN: XPATENTEXKFPTO158829\n\nInforme clinico del paciente:\nPaciente fumador de 38 años de edad, acompañado de su compañero de estudio."


### OTROS_NUM

#### Historias clínicas

In [95]:
## Expresión regular para HISTORIA CLINICA
regexp_hc_prefix = r'\bh(\.?)c(\.?)\s*[:\.]?\s*'
regexp_hc_numbers = r'[0-9]{3,}'

clinic_history_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_hc_prefix,
    content_regex=regexp_hc_numbers,
    re_flags=re.IGNORECASE,
    category='XOTROS_NUMX',
    output_type=OUTPUT_TYPE,
)

print(clinic_history_anonymizer.anonymize("Atendido previamente hc 23411, control prenatal semana 27"))
print(clinic_history_anonymizer.anonymize("Atendido previamente h.c. 23411, control prenatal semana 27"))
print(clinic_history_anonymizer.anonymize("Atendido  previamente hc h.c.: 23411 control prenatal semana 27"))
print(clinic_history_anonymizer.anonymize("Refiere extravio hc sin sintomatologia tel 27384234"))

Atendido previamente hc  XOTROS_NUMX, control prenatal semana 27
Atendido previamente h.c.  XOTROS_NUMX, control prenatal semana 27
Atendido  previamente hc h.c.:  XOTROS_NUMX control prenatal semana 27
Refiere extravio hc sin sintomatologia tel 27384234


In [96]:
documents['anonymized'] = documents['anonymized'].apply(clinic_history_anonymizer.anonymize)

In [97]:
documents[documents['anonymized'].str.contains('XOTROS_NUMX', case=False)]

Unnamed: 0,original,preprocessed,anonymized


### DIRECCIÓN

In [98]:
streets = pd.read_csv("datasets/diccionario_calles_editadas.csv", sep=';', index_col=None)
streets.head(5)

Unnamed: 0,categoria,nombre,provincia_nombre,Token0,Token1,Token2,Token3,Token4,Token5,Token6
0,PJE,pje estudiante,La Rioja,pje,estudiante,,,,,
1,CALLE,20 de mayo,La Rioja,20,de,mayo,,,,
2,CALLE,1 de enero,La Rioja,1,de,enero,,,,
3,CALLE,10 de julio,La Rioja,10,de,julio,,,,
4,CALLE,aconcagua,La Rioja,aconcagua,,,,,,


In [99]:
# Sanitize street names
street_names = [remove_accents(name).strip()
                for name in streets.nombre
                if not re.search(ILLEGAL_CHAR_REGEX, name)]
regexp_address_prefix = r'\b(calle|avenida|av\.?|pasaje|pje\.?|parcela|manzana|tira|bloque|casa|lote|barrio)\s*[:]?\s*'
# Nombre de calles o barrios incluyendo cualquier numero posterior
regexp_streets = '(' + '|'.join(street_names) + ')(\s+([0-9]{1,6}))?'

address_w_names_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_address_prefix,
    content_regex=regexp_streets,
    re_flags=re.IGNORECASE,
    category='XDIRECCIONX',
    output_type=OUTPUT_TYPE,
)

# Ejemplos
print(address_w_names_anonymizer.anonymize("Vive en av. antartida argentina 1470, se indica medicacion"))
print(address_w_names_anonymizer.anonymize("Direccion: calle: 10 de julio, Barrio: alfonsina storini con hermanos"))
print(address_w_names_anonymizer.anonymize("Vive en Barrio barrioquenoexiste con hermanos"))
print(address_w_names_anonymizer.anonymize("Vive en manzana 3 lote 9 barrio 10 de julio."))

Vive en av.  XDIRECCIONX, se indica medicacion
Direccion: calle:  XDIRECCIONX, Barrio:  XDIRECCIONX con hermanos
Vive en Barrio barrioquenoexiste con hermanos
Vive en manzana 3 lote 9 barrio  XDIRECCIONX.


  regexp_streets = '(' + '|'.join(street_names) + ')(\s+([0-9]{1,6}))?'


In [100]:
regexp_address_prefix = r'\b(calle|avenida|pasaje|pje\.?|parcela|manzana|tira|bloque|casa|lote|barrio)\s*[:]?\s*'
# Palabra o numero
regexp_address_content = r'\b([0-9]{1,6}|[a-zA-Z]+)\b'

address_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_address_prefix,
    content_regex=regexp_address_content,
    re_flags=re.IGNORECASE,
    category='XDIRECCIONX',
    output_type=OUTPUT_TYPE,
)

# Ejemplos
print(address_anonymizer.anonymize("Vive en avenida antartida argentina 1470, se indica medicacion"))
print(address_anonymizer.anonymize("Direccion: calle: 10 de julio, Barrio: alfonsina storini con hermanos"))
print(address_anonymizer.anonymize("Vive en Barrio barrioquenoexiste con hermanos"))
print(address_anonymizer.anonymize("Vive en manzana 3 lote 9 barrio 10 de julio."))

Vive en avenida  XDIRECCIONX argentina 1470, se indica medicacion
Direccion: calle:  XDIRECCIONX de julio, Barrio:  XDIRECCIONX storini con hermanos
Vive en Barrio  XDIRECCIONX con hermanos
Vive en manzana  XDIRECCIONX lote  XDIRECCIONX barrio  XDIRECCIONX de julio.


In [101]:
documents['anonymized'] = documents['anonymized'].apply(address_w_names_anonymizer.anonymize)
documents['anonymized'] = documents['anonymized'].apply(address_anonymizer.anonymize)

In [102]:
documents[documents['anonymized'].str.contains('XDIRECCIONX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 48\nTelefono movil: +34 6XFECHAX 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."
2,"Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGénero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCódigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTeléfono fijo: +34 972 65 06 71\nTeléfono móvil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondición de riesgo: Trabajador de Sanitización\n\nDatos asistenciales.\nMédico: Dra. Emma Vicente Santos. NC 588434040. Neuróloga Investigadora en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartín\n\nInforme clínico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTelefono fijo: +34 972 65 06 71\nTelefono movil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 7XFECHAX 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad."
3,"Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGénero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragón\nCódigo postal: 44075\nEmail: manuela@uca.es\nTeléfono fijo: +34 978 49 11 69\nTeléfono móvil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMédico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clínico del paciente:\nPaciente judío de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: manuela@uca.es\nTelefono fijo: +34 978 49 11 69\nTelefono movil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 6XFECHAX 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo."
4,"Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGénero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCódigo postal: 07533\nEmail: alejandro@ciberned.es\nTeléfono fijo: +34 971 59 71 11\nTeléfono móvil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondición de riesgo: Soldador\n\nDatos asistenciales.\nMédico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clínico del paciente:\nPaciente de ascendencia nórdica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: alejandro@ciberned.es\nTelefono fijo: +34 971 59 71 11\nTelefono movil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 11\nTelefono movil: +34 6XFECHAX 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela."
...,...,...,...
995,"Datos del paciente.\nNombre: Concepción Sánchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGénero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellón, Comunidad Valenciana\nCódigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTeléfono fijo: +34 964 68 03 70\nTeléfono móvil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMédico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clínico en Enfermedades Digestivas. Instituto de Investigación Biomédica en Red de Enfermedades Hepáticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clínico del paciente:\nPaciente de ascendencia indígena sudamericana de 13 años de edad, acompañado de su madre. Se realizó un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGenero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTelefono fijo: +34 964 68 03 70\nTelefono movil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle XDIRECCIONX Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 70\nTelefono movil: +34 6XFECHAX 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H."
996,"Datos del paciente.\nNombre: Silvia Carrasco López\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGénero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCódigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTeléfono fijo: +34 913 43 68 26\nTeléfono móvil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMédico: Dra. Remedios Casas Martínez. NC 002225764. Residente de 3° año en Oftalmología. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Málaga Oeste\n\nInforme clínico del paciente:\nPaciente exfumador de 59 años de edad. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGenero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTelefono fijo: +34 913 43 68 26\nTelefono movil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle XDIRECCIONX Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 26\nTelefono movil: +34 6XFECHAX 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105."
997,"Datos del paciente.\nNombre: María Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGénero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCódigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTeléfono fijo: +34 926 82 07 12\nTeléfono móvil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondición de riesgo: Soldado\n\nDatos asistenciales.\nMédico: Dra. Sofía Zamora Bermudez. NC 674953567. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de León\nMatrícula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGenero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTelefono fijo: +34 926 82 07 12\nTelefono movil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 12\nTelefono movil: +34 6XFECHAX 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: XFECHAX\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre."
998,"Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGénero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Úbeda, Salamanca, Castilla y León\nCódigo postal: 37590\nEmail: montoya@ciberehd.org\nTeléfono fijo: +34 923 00 92 67\nTeléfono móvil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondición de riesgo: Pintor de Construcción\n\nDatos asistenciales.\nMédico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcalá de Henares\nMatrícula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clínico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.239.21, con dirección MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGenero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: montoya@ciberehd.org\nTelefono fijo: +34 923 00 92 67\nTelefono movil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 67\nTelefono movil: +34 6XFECHAX 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14."


### EFECTOR

Se siguen dos estrategias
- CAPS y Hospitales por diccionario con trigger words
- Siglas más usuales (HMN, HMyN, etc)

#### CAPS

In [103]:
caps = pd.read_csv("datasets/diccionario_caps.csv", sep=';', index_col=None)
caps.head(2)

Unnamed: 0,Nombre,Token0,Token1,Token2,Token3,Token4,Token5,Token6
0,caps 20 de mayo,caps,20,de,mayo,,,
1,caps agua blanca,caps,agua,blanca,,,,


In [104]:
# Sanitize caps names
caps_names = [remove_accents(name).replace('caps', '').strip()
                for name in caps.Nombre
                if not re.search(ILLEGAL_CHAR_REGEX, name)]

regexp_caps_prefix = r'(CAPS|CPS)\s*[:\.]?'
regexp_caps_names = r'\b(' + '|'.join(caps_names) + r')\b'

caps_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_caps_prefix,
    content_regex=regexp_caps_names,
    re_flags=re.IGNORECASE,
    category='XCAPSX',
    output_type=OUTPUT_TYPE,
)

print(caps_anonymizer.anonymize("Atendido previamente en caps 20 de mayo, se indica medicacion"))
print(caps_anonymizer.anonymize("Atendido previamente en caps: agua blanca"))
print(caps_anonymizer.anonymize("Atendido previamente en cps: Agua Blanca"))
print(caps_anonymizer.anonymize("Atendido previamente en caps noexiste"))

Atendido previamente en caps  XCAPSX, se indica medicacion
Atendido previamente en caps: XCAPSX
Atendido previamente en cps: XCAPSX
Atendido previamente en caps noexiste


In [105]:
documents['anonymized'] = documents['anonymized'].apply(caps_anonymizer.anonymize)

In [106]:
documents[documents['anonymized'].str.contains('XCAPSX', case=False)]

Unnamed: 0,original,preprocessed,anonymized


#### Hospitales

In [107]:
hospitals = pd.read_csv("datasets/diccionario_hospitales.csv", sep=';', index_col=None)
hospitals.head(2)

Unnamed: 0,Nombre,Token0,Token1,Token2,Token3,Token4,Token5,Token6,Token7,Token8,Token9,Token10
0,hospital de la madre y el niño (la rioja) - capital,hospital,de,la,madre,y,el,niño,(la,rioja),-,capital
1,hospital campanas,hospital,campanas,,,,,,,,,


In [108]:
# Sanitize hospital names
hospitals_names = [
    remove_accents(name).replace('hospital', '').split('-')[0].split('(')[0].strip()
    for name in hospitals.Nombre
]
hospitals_names = [
    name for name in hospitals_names
    if not re.search(ILLEGAL_CHAR_REGEX, name)
]

regexp_hospital_prefix = r'Hospital|Hosp\.?|H(\.)?\s*[:\.]?'
regexp_hospital_names = r'\b(' + '|'.join(hospitals_names) + r')\b'
regexp_hospital_names = regexp_hospital_names.replace('.', '\.?')

hospital_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_hospital_prefix,
    content_regex=regexp_hospital_names,
    re_flags=re.IGNORECASE,
    category='XHOSPX',
    output_type=OUTPUT_TYPE,
)

print(hospital_anonymizer.anonymize("Atendido previamente en hospital segundo b. romero, se indica medicacion"))
print(hospital_anonymizer.anonymize("Atendido previamente en hospital segundo b romero, se indica medicacion"))
print(hospital_anonymizer.anonymize("Atendido previamente en hosp villa castelli"))
print(hospital_anonymizer.anonymize("Atendido previamente en H  Villa Castelli"))
print(hospital_anonymizer.anonymize("Atendido previamente en hosp por la maniana"))

Atendido previamente en hospital XHOSPX, se indica medicacion
Atendido previamente en hospital XHOSPX, se indica medicacion
Atendido previamente en hosp XHOSPX
Atendido previamente en H   XHOSPX
Atendido previamente en hosp por la maniana


  regexp_hospital_names = regexp_hospital_names.replace('.', '\.?')


In [109]:
documents['anonymized'] = documents['anonymized'].apply(hospital_anonymizer.anonymize)

In [110]:
documents[documents['anonymized'].str.contains('XHOSPX', case=False)]

Unnamed: 0,original,preprocessed,anonymized


### INSTITUCIÓN

In [111]:
schools = pd.read_csv("datasets/diccionario_est_educativos.csv", sep=';', index_col=None)
schools.head(2)

Unnamed: 0,Nombre,Tipo,Numeración,Nombre_limpio,Token0,Token1,Token2,Token3,Token4,Token5,Token6,Token7,Token8,Token9,Token10,Token11,Token12,Token13,Token14
0,esc.n°230 bajo hondo,esc.,n°230,bajo hondo,bajo,hondo,,,,,,,,,,,,,
1,esc.n°353 batallon de ing. de construcciones 141,esc.,n°353,batallon de ing. de construcciones 141,batallon,de,ing.,de,construcciones,141.0,,,,,,,,,


In [112]:
# Sanitize school names
# Remove content in ()
school_names = [
    re.sub(r'\(.*?\)', '', name).replace('(', '').replace(')', '').strip()
    for name in schools.Nombre_limpio if isinstance(name, str)
]
school_names = set([
    remove_accents(name)
    for name in school_names if len(name) > 1 and not re.search(ILLEGAL_CHAR_REGEX, name)
])

regexp_school_main = r'escuela|esc\.|esc|colegio|jardin|infantes|instituto'
regexp_school_detail = r'primari[ao]|normal|secundari[ao]|privad[ao]|maternal|especial'
regexp_school_number = r'(\sn\s?\.?\°?)?\s*[0-9]+'
regexp_school_prefix = rf'({regexp_school_main})(?:\s+(?:{regexp_school_detail}))?'

regexp_school_names = '|'.join(school_names)
regexp_school_names = regexp_school_names.replace('.', '\.?')
regexp_school_names = rf'({regexp_school_number}\s?)?({regexp_school_names})'

# Anonimiza el nombre de los establecimientos
school_name_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_school_prefix,
    content_regex=regexp_school_names,
    re_flags=re.IGNORECASE,
    category='XINSTITUCIONX',
    output_type=OUTPUT_TYPE,
)

print(school_name_anonymizer.anonymize("Asiste a jardin maternal rincon de luz."))
print(school_name_anonymizer.anonymize("Asiste a colegio bajo hondo."))
print(school_name_anonymizer.anonymize("Asiste a colegio secundario bajo hondo."))
print(school_name_anonymizer.anonymize("Asiste a esc normal dr. jose santos salinas por la tarde"))
print(school_name_anonymizer.anonymize("Asiste a esc normal inexistente"))
print(school_name_anonymizer.anonymize("Asiste a esc n 345 munic.beatriz de la v.de costa medina"))
print(school_name_anonymizer.anonymize("Asiste a Esc. n° 345 para el paicor"))

Asiste a jardin maternal XINSTITUCIONX.
Asiste a colegio XINSTITUCIONX.
Asiste a colegio secundario XINSTITUCIONX.
Asiste a esc XINSTITUCIONX por la tarde
Asiste a esc normal inexistente
Asiste a esc XINSTITUCIONX
Asiste a Esc. n° 345 para el paicor


  regexp_school_names = regexp_school_names.replace('.', '\.?')


In [113]:
# Anonimiza solo el numero
school_number_anonymizer = PrefixRegexAnnonimizer(
    prefix_regex=regexp_school_prefix,
    content_regex=regexp_school_number,
    re_flags=re.IGNORECASE,
    category='XINSTITUCIONX',
    output_type=OUTPUT_TYPE,
)

print(school_number_anonymizer.anonymize("Asiste a esc normal inexistente"))
print(school_number_anonymizer.anonymize("Asiste a esc n 345 munic.beatriz de la v.de costa medina"))
print(school_number_anonymizer.anonymize("Asiste a Esc. n° 345 para el paicor"))

Asiste a esc normal inexistente
Asiste a esc XINSTITUCIONX munic.beatriz de la v.de costa medina
Asiste a Esc. XINSTITUCIONX para el paicor


In [114]:
documents['anonymized'] = documents['anonymized'].apply(school_name_anonymizer.anonymize)
documents['anonymized'] = documents['anonymized'].apply(school_number_anonymizer.anonymize)

In [115]:
documents[documents['anonymized'].str.contains('XINSTITUCIONX', case=False)]

Unnamed: 0,original,preprocessed,anonymized


#### Grados

In [116]:
# regexp_grado = re.compile(r'^grado$', re.IGNORECASE)
# regexp_grado_letras = re.compile(r'^primer$|^segundo$|^tercer$|^cuarto$|^quinto$|^sexto$|^septimo$', re.IGNORECASE)
# regexp_grado_combinado = re.compile(r'[0-9]{1}[a-z]{1,3}|[0-9]{1}º', re.IGNORECASE)
# regexp_grado_exclusión = re.compile(r'obesidad|quemadura|evoluci[oóò]n', re.IGNORECASE)

# def deidentificar_grado(texto_a_deidentificar):
#     lista_texto_a_deidentificar=texto_a_deidentificar.split(' ')
    
#     ## Iteración entre tokens de la lista del texto a deidentificar
#     for j, token in enumerate(lista_texto_a_deidentificar):
    
#         # Detecta si el token actual es grado
#         if regexp_grado.search(lista_texto_a_deidentificar[j]):
#             #Excluyo grados de obesidad y quemaduras
#             if not regexp_grado_exclusión.search(lista_texto_a_deidentificar[j-3]) or regexp_grado_exclusión.search(lista_texto_a_deidentificar[j-2]):
#                 if regexp_grado_letras.search(lista_texto_a_deidentificar[j-1]) or regexp_grado_combinado.search(lista_texto_a_deidentificar[j-1]):
#                 # Reemplazar el token actual por el patrón correspondiente
#                     if output_tipo==1:
#                         lista_texto_a_deidentificar[j] = '<'+ lista_texto_a_deidentificar[j] +'>'
#                         lista_texto_a_deidentificar[j-1] = '<'+ lista_texto_a_deidentificar[j-1] +'>'
#                     if output_tipo==2:
#                         lista_texto_a_deidentificar[j] = 'XXXX'
#                         lista_texto_a_deidentificar[j-1] = 'XXXX'
#                     if output_tipo==3:
#                         lista_texto_a_deidentificar[j] = 'XGRADOX'
#                         lista_texto_a_deidentificar[j-1] = 'XGRADOX'
    
#     # Generar el texto deidentificado concatenando todos los tokens ya revisados (y modificados si corrrespondiera)
#     return ' '.join(lista_texto_a_deidentificar)
    
# textos_a_deidentificar['texto_anonimizado'] = textos_a_deidentificar['texto_anonimizado'].apply(deidentificar_grado)

#### Turnos

In [117]:
## Expresión regular para TURNOS
regexp_shcool_turn = r'\b(turno mañana|turno tarde|TT|TM)\b'

shcool_turn_anonymizer = RegexAnnonimizer(
    content_regex=regexp_shcool_turn,
    category='XTURNOX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(shcool_turn_anonymizer.anonymize("Asiste a esc en turno tarde"))
print(shcool_turn_anonymizer.anonymize("Asiste a esc sexto grado TT por la mañana,"))
print(shcool_turn_anonymizer.anonymize("Asiste a esc sexto grado turno mañana."))

Asiste a esc en XTURNOX
Asiste a esc sexto grado XTURNOX por la mañana,
Asiste a esc sexto grado XTURNOX.


In [118]:
documents['anonymized'] = documents['anonymized'].apply(school_name_anonymizer.anonymize)

In [119]:
documents[documents['anonymized'].str.contains('XTURNOX', case=False)]

Unnamed: 0,original,preprocessed,anonymized


### ZONA

In [120]:
neighborhood = pd.read_csv("datasets/diccionario_barrios_populares.csv", sep=';')
province = pd.read_csv("datasets/diccionario_provincias.csv", sep=';')
city = pd.read_csv("datasets/diccionario_localidades.csv", sep=';')
county = pd.read_csv("datasets/diccionario_municipios.csv", sep=';')

county.head()

Unnamed: 0,ciudad,Token0,Token1,Token2,Token3,Token4
0,aimogasta,aimogasta,,,,
1,arauco,arauco,,,,
2,aminga,aminga,,,,
3,castro barros,castro,barros,,,
4,chamical,chamical,,,,


In [121]:
location_names = (
    neighborhood['nombre'].values.tolist() + county['ciudad'].values.tolist() +
    city['nombre'].values.tolist() + province['provincia_nombre'].values.tolist()
)

location_names = set([
    remove_accents(name)
    for name in location_names if len(name) > 1 and not re.search(ILLEGAL_CHAR_REGEX, name)
])

regexp_locations = r'\b(' + '|'.join(location_names) + r')\b'

location_anonymizer = RegexAnnonimizer(
    content_regex=regexp_locations,
    category='XZONAX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(location_anonymizer.anonymize("Paciente se traslada desde Chamical para consulta"))
print(location_anonymizer.anonymize("Paciente se traslada desde CASTRO BARROS, para consulta"))

Paciente se traslada desde XZONAX para consulta
Paciente se traslada desde XZONAX, para consulta


In [122]:
documents['anonymized'] = documents['anonymized'].apply(location_anonymizer.anonymize)

In [123]:
documents[documents['anonymized'].str.contains('XZONAX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX Arganzuela 18\nCiudad: Gijon, XZONAX, XZONAX\nCodigo postal: 26167\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."
2,"Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGénero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCódigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTeléfono fijo: +34 972 65 06 71\nTeléfono móvil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondición de riesgo: Trabajador de Sanitización\n\nDatos asistenciales.\nMédico: Dra. Emma Vicente Santos. NC 588434040. Neuróloga Investigadora en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartín\n\nInforme clínico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTelefono fijo: +34 972 65 06 71\nTelefono movil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 7XFECHAX 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad."
3,"Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGénero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragón\nCódigo postal: 44075\nEmail: manuela@uca.es\nTeléfono fijo: +34 978 49 11 69\nTeléfono móvil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMédico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clínico del paciente:\nPaciente judío de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: manuela@uca.es\nTelefono fijo: +34 978 49 11 69\nTelefono movil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 6XFECHAX 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. XZONAX. España.\nFecha de ingreso: XFECHAX\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo."
4,"Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGénero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCódigo postal: 07533\nEmail: alejandro@ciberned.es\nTeléfono fijo: +34 971 59 71 11\nTeléfono móvil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondición de riesgo: Soldador\n\nDatos asistenciales.\nMédico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clínico del paciente:\nPaciente de ascendencia nórdica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: alejandro@ciberned.es\nTelefono fijo: +34 971 59 71 11\nTelefono movil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro XZONAX Galvez\nDNI: 61787147Q\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 11\nTelefono movil: +34 6XFECHAX 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela."
5,"Datos del paciente.\nNombre: Eric Gómez Miranda\nDNI: 42454786Y\nFecha de nacimiento: 27/07/2011\nGénero: Masculino\nDomicilio: Calle Mayor 52, 1G\nCiudad: Denia, Granada, Andalucía\nCódigo postal: 18120\nEmail: z0nADoFh@ciberer.es\nTeléfono fijo: +34 958 85 44 29\nFAX: +34 958 35 32 63\nNHC: 2587788\nNASS: 740061735290\nCondición de riesgo: Pintor de Construcción\n\nDatos asistenciales.\nMédico: Dra. Esperanza Plaza Espinosa. NC 965989298. Investigadora Clínica en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 01/01/2013\nEpisodio: 21132443\nCentro de salud: Centro de Salud Majadahonda\n\nInforme clínico del paciente:\nPaciente vegano de un año de edad, acompañado de su hermano. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es KR005NQB160.","Datos del paciente.\nNombre: Eric Gomez Miranda\nDNI: 42454786Y\nFecha de nacimiento: 27/07/2011\nGenero: Masculino\nDomicilio: Calle Mayor 52, 1G\nCiudad: Denia, Granada, Andalucia\nCodigo postal: 18120\nEmail: z0nADoFh@ciberer.es\nTelefono fijo: +34 958 85 44 29\nFAX: +34 958 35 32 63\nNHC: 2587788\nNASS: 740061735290\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Esperanza Plaza Espinosa. NC 965989298. Investigadora Clinica en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 01/01/2013\nEpisodio: 21132443\nCentro de salud: Centro de Salud Majadahonda\n\nInforme clinico del paciente:\nPaciente vegano de un año de edad, acompañado de su hermano. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KR005NQB160.","Datos del paciente.\nNombre: Eric Gomez XZONAX\nDNI: 42454786Y\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX 52, 1G\nCiudad: Denia, Granada, Andalucia\nCodigo postal: 18120\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 29\nFAX: +34 9XFECHAX 63\nNHC: 2587788\nNASS: 740061735290\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Esperanza Plaza Espinosa. NC 965989298. Investigadora Clinica en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 21132443\nCentro de salud: Centro de Salud Majadahonda\n\nInforme clinico del paciente:\nPaciente vegano de un año de edad, acompañado de su hermano. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KR005NQB160."
...,...,...,...
978,"Datos del paciente.\nNombre: María Josefa Núñez Zamora\nDNI: 80846408M\nFecha de nacimiento: 23/11/1927\nGénero: F\nDomicilio: Calle Mayor 80\nCiudad: Burgos, Región de Murcia, Región de Murcia\nCódigo postal: 30684\nEmail: mariajosefa.nunezzamora@isciii.es\nTeléfono fijo: +34 968 26 94 08\nTeléfono móvil: +34 768 84 78 40\nNHC: 4177813\nNASS: 117556076503\nCondición de riesgo: Trabajador de Laboratorio\n\nDatos asistenciales.\nMédico: Dra. Ana Isabel Domínguez Gil. NC 837036567. Cardióloga de Unidad de Cuidados Intensivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 17/08/1975\nHospital: Hospital Universitario de Crúces\nMatrícula del coche: 1090JFQ\nModelo: Ford Mustang\nVIN: VSY27JP1BJD366945\n\nInforme clínico del paciente:\nPaciente vegetariano de 47 años de edad. Se registró una sesión de huella dactilar, el código obtenido para revisarla es KT511AEO403.","Datos del paciente.\nNombre: Maria Josefa Nuñez Zamora\nDNI: 80846408M\nFecha de nacimiento: 23/11/1927\nGenero: F\nDomicilio: Calle Mayor 80\nCiudad: Burgos, Region de Murcia, Region de Murcia\nCodigo postal: 30684\nEmail: mariajosefa.nunezzamora@isciii.es\nTelefono fijo: +34 968 26 94 08\nTelefono movil: +34 768 84 78 40\nNHC: 4177813\nNASS: 117556076503\nCondicion de riesgo: Trabajador de Laboratorio\n\nDatos asistenciales.\nMedico: Dra. Ana Isabel Dominguez Gil. NC 837036567. Cardiologa de Unidad de Cuidados Intensivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 17/08/1975\nHospital: Hospital Universitario de Cruces\nMatricula del coche: 1090JFQ\nModelo: Ford Mustang\nVIN: VSY27JP1BJD366945\n\nInforme clinico del paciente:\nPaciente vegetariano de 47 años de edad. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es KT511AEO403.","Datos del paciente.\nNombre: Maria Josefa Nuñez Zamora\nDNI: 80846408M\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX 80\nCiudad: Burgos, Region de Murcia, Region de Murcia\nCodigo postal: 30684\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 08\nTelefono movil: +34 7XFECHAX 40\nNHC: 4177813\nNASS: 117556076503\nCondicion de riesgo: Trabajador de Laboratorio\n\nDatos asistenciales.\nMedico: Dra. Ana Isabel Dominguez Gil. NC 837036567. Cardiologa de Unidad de Cuidados Intensivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. Madrid. España.\nFecha de ingreso: XFECHAX\nHospital: Hospital Universitario de Cruces\nMatricula del coche: 1090JFQ\nModelo: Ford Mustang\nVIN: VSY27JP1BJD366945\n\nInforme clinico del paciente:\nPaciente vegetariano de 47 años de edad. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es KT511AEO403."
990,"Datos del paciente.\nNombre: José Ramón Segura Exposito\nDNI: 91227227G\nFecha de nacimiento: 21/10/1956\nGénero: V\nDomicilio: Calle de San Ildefonso 44, 3U\nCiudad: Ibiza, La Rioja, La Rioja\nCódigo postal: 26255\nEmail: joseramon_exposito@udc.es\nTeléfono fijo: +34 941 17 04 22\nTeléfono móvil: +34 641 49 46 85\nNHC: 7607301\nCondición de riesgo: Ama de casa\n\nDatos asistenciales.\nMédico: Dra. Alba Menendez Vidal. NC 674912935. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 22/07/1964\nEpisodio: 96179842\nCentro de salud: Centro de Salud Málaga Sur\n\nInforme clínico del paciente:\nPaciente refugiado de 7 años de edad, acompañado de su abuela. Se realizó un expediente con URL http://example-dermatology.org//50515210P.","Datos del paciente.\nNombre: Jose Ramon Segura Exposito\nDNI: 91227227G\nFecha de nacimiento: 21/10/1956\nGenero: V\nDomicilio: Calle de San Ildefonso 44, 3U\nCiudad: Ibiza, La Rioja, La Rioja\nCodigo postal: 26255\nEmail: joseramon_exposito@udc.es\nTelefono fijo: +34 941 17 04 22\nTelefono movil: +34 641 49 46 85\nNHC: 7607301\nCondicion de riesgo: Ama de casa\n\nDatos asistenciales.\nMedico: Dra. Alba Menendez Vidal. NC 674912935. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 22/07/1964\nEpisodio: 96179842\nCentro de salud: Centro de Salud Malaga Sur\n\nInforme clinico del paciente:\nPaciente refugiado de 7 años de edad, acompañado de su abuela. Se realizo un expediente con URL http://example-dermatology.org//50515210P.","Datos del paciente.\nNombre: Jose Ramon Segura Exposito\nDNI: 91227227G\nFecha de nacimiento: XFECHAX\nGenero: V\nDomicilio: Calle XDIRECCIONX San Ildefonso 44, 3U\nCiudad: Ibiza, XZONAX, XZONAX\nCodigo postal: 26255\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 22\nTelefono movil: +34 6XFECHAX 85\nNHC: 7607301\nCondicion de riesgo: Ama de casa\n\n XDIRECCIONX asistenciales.\nMedico: Dra. Alba Menendez Vidal. NC 674912935. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 96179842\nCentro de salud: Centro de Salud Malaga Sur\n\nInforme clinico del paciente:\nPaciente refugiado de 7 años de edad, acompañado de su abuela. Se realizo un expediente con URL http://example-dermatology.org//50515210P."
991,"Datos del paciente.\nNombre: Ana María Cruz Casado\nDNI: 63351952Q\nFecha de nacimiento: 15/09/1962\nGénero: F\nDomicilio: Calle de Menorca 13, 5S\nCiudad: Alcázar de San Juan, Zamora, Castilla y León\nCódigo postal: 49922\nEmail: cruz1111@outlook.com\nTeléfono fijo: +34 980 67 91 71\nTeléfono móvil: +34 680 52 32 98\nNHC: 6584399\nNASS: 654472216287\nCondición de riesgo: Técnico de Radiología\n\nDatos asistenciales.\nMédico: Dr. Marco Cano Ortiz. NC 074644894. Residente de 4° año en Endocrinología. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 18/12/1969\nEpisodio: 53534753\nCentro de salud: Centro de Salud Centro\n\nInforme clínico del paciente:\nPaciente de tez blanca de 7 años de edad, acompañado de su tío. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es TH262XMH799.","Datos del paciente.\nNombre: Ana Maria Cruz Casado\nDNI: 63351952Q\nFecha de nacimiento: 15/09/1962\nGenero: F\nDomicilio: Calle de Menorca 13, 5S\nCiudad: Alcazar de San Juan, Zamora, Castilla y Leon\nCodigo postal: 49922\nEmail: cruz1111@outlook.com\nTelefono fijo: +34 980 67 91 71\nTelefono movil: +34 680 52 32 98\nNHC: 6584399\nNASS: 654472216287\nCondicion de riesgo: Tecnico de Radiologia\n\nDatos asistenciales.\nMedico: Dr. Marco Cano Ortiz. NC 074644894. Residente de 4° año en Endocrinologia. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 18/12/1969\nEpisodio: 53534753\nCentro de salud: Centro de Salud Centro\n\nInforme clinico del paciente:\nPaciente de tez blanca de 7 años de edad, acompañado de su tio. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es TH262XMH799.","Datos del paciente.\nNombre: Ana Maria Cruz Casado\nDNI: 63351952Q\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX Menorca 13, 5S\nCiudad: Alcazar de XZONAX, Zamora, Castilla y Leon\nCodigo postal: 49922\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 6XFECHAX 98\nNHC: 6584399\nNASS: 654472216287\nCondicion de riesgo: Tecnico de Radiologia\n\nDatos asistenciales.\nMedico: Dr. Marco Cano Ortiz. NC 074644894. Residente de 4° año en Endocrinologia. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. XZONAX. España.\nFecha de ingreso: XFECHAX\nEpisodio: 53534753\nCentro de salud: Centro de Salud Centro\n\nInforme clinico del paciente:\nPaciente de tez blanca de 7 años de edad, acompañado de su tio. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es TH262XMH799."
993,"Datos del paciente.\nNombre: Aurora Padilla Aguilar\nDNI: 98220467W\nFecha de nacimiento: 16/09/1963\nGénero: Femenino\nDomicilio: Calle del Fúcar 54, 4I\nCiudad: Ermua, Córdoba, Andalucía\nCódigo postal: 14127\nEmail: aurorapadilla-aguilar@protonmail.com\nTeléfono fijo: +34 957 37 85 03\nTeléfono móvil: +34 757 60 53 11\nNHC: 9182435\nCondición de riesgo: Albañil\n\nDatos asistenciales.\nMédico: Dra. María Ángeles Marín Montoya. NC 864247234. Residente de 4° año en Cardiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/08/1988\nEpisodio: 68943682\nCentro de salud: Centro de Salud Alcalá de Henares\n\nInforme clínico del paciente:\nPaciente no fumador de 24 años de edad, acompañado de su abuela. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.194.35, con dirección MAC 57:56:C9:8E:80:20.","Datos del paciente.\nNombre: Aurora Padilla Aguilar\nDNI: 98220467W\nFecha de nacimiento: 16/09/1963\nGenero: Femenino\nDomicilio: Calle del Fucar 54, 4I\nCiudad: Ermua, Cordoba, Andalucia\nCodigo postal: 14127\nEmail: aurorapadilla-aguilar@protonmail.com\nTelefono fijo: +34 957 37 85 03\nTelefono movil: +34 757 60 53 11\nNHC: 9182435\nCondicion de riesgo: Albañil\n\nDatos asistenciales.\nMedico: Dra. Maria Angeles Marin Montoya. NC 864247234. Residente de 4° año en Cardiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/08/1988\nEpisodio: 68943682\nCentro de salud: Centro de Salud Alcala de Henares\n\nInforme clinico del paciente:\nPaciente no fumador de 24 años de edad, acompañado de su abuela. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.194.35, con direccion MAC 57:56:C9:8E:80:20.","Datos del paciente.\nNombre: Aurora Padilla Aguilar\nDNI: 98220467W\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle XDIRECCIONX Fucar 54, 4I\nCiudad: Ermua, XZONAX, Andalucia\nCodigo postal: 14127\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 03\nTelefono movil: +34 7XFECHAX 11\nNHC: 9182435\nCondicion de riesgo: Albañil\n\nDatos asistenciales.\nMedico: Dra. Maria Angeles Marin Montoya. NC 864247234. Residente de 4° año en Cardiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: XFECHAX\nEpisodio: 68943682\nCentro de salud: Centro de Salud Alcala de Henares\n\nInforme clinico del paciente:\nPaciente no fumador de 24 años de edad, acompañado de su abuela. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.194.35, con direccion MAC 57:56:C9:8E:80:20."


### PAÍS

Preparación del listado de paises a detectar:

In [124]:
countries = pd.read_csv("datasets/diccionario_paises.csv", sep=';', index_col=None)

# Filtro algunas entradas teniendo en cuenta que su uso como país es muy infrecuente en el nuestro.
p1 = re.compile(
    'Nueva|Reunion|San Martin|Islas Cocos \(Keeling\)|india|malta|montenegro|guadalupe|mauricio|laos|'
    'eritrea|iran|polonia|portugal|camboya|islas malvinas|antartida|argentina',
    re.IGNORECASE)

countries = countries[~countries['nombre'].str.contains(p1)]
countries.tail()

  'Nueva|Reunion|San Martin|Islas Cocos \(Keeling\)|india|malta|montenegro|guadalupe|mauricio|laos|'


Unnamed: 0,nombre,Token0,Token1,Token2,Token3,Token4,Token5,Token6,Token7
243,wallis y futuna,wallis,y,futuna,,,,,
244,yemen,yemen,,,,,,,
245,yibuti,yibuti,,,,,,,
246,zambia,zambia,,,,,,,
247,zimbabue,zimbabue,,,,,,,


In [125]:
country_names = set([
    remove_accents(name).strip()
    for name in countries.nombre if len(name) > 1 and not re.search(ILLEGAL_CHAR_REGEX, name)
])

regexp_countries = r'\b(' + r'|'.join(country_names) + r')\b'

country_anonymizer = RegexAnnonimizer(
    content_regex=regexp_countries,
    category='XPAISX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(country_anonymizer.anonymize("Paciente se traslada desde ZAMBIA para consulta"))
print(country_anonymizer.anonymize("Paciente se traslada desde wallis y futuna, para consulta"))

Paciente se traslada desde XPAISX para consulta
Paciente se traslada desde XPAISX, para consulta


In [126]:
documents['anonymized'] = documents['anonymized'].apply(country_anonymizer.anonymize)

In [127]:
documents[documents['anonymized'].str.contains('XPAISX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 48\nTelefono movil: +34 6XFECHAX 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. XPAISX.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX Arganzuela 18\nCiudad: Gijon, XZONAX, XZONAX\nCodigo postal: 26167\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. Madrid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325."
2,"Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGénero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCódigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTeléfono fijo: +34 972 65 06 71\nTeléfono móvil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondición de riesgo: Trabajador de Sanitización\n\nDatos asistenciales.\nMédico: Dra. Emma Vicente Santos. NC 588434040. Neuróloga Investigadora en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartín\n\nInforme clínico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTelefono fijo: +34 972 65 06 71\nTelefono movil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 7XFECHAX 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. Madrid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad."
3,"Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGénero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragón\nCódigo postal: 44075\nEmail: manuela@uca.es\nTeléfono fijo: +34 978 49 11 69\nTeléfono móvil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMédico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clínico del paciente:\nPaciente judío de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: manuela@uca.es\nTelefono fijo: +34 978 49 11 69\nTelefono movil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 6XFECHAX 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. XZONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo."
4,"Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGénero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCódigo postal: 07533\nEmail: alejandro@ciberned.es\nTeléfono fijo: +34 971 59 71 11\nTeléfono móvil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondición de riesgo: Soldador\n\nDatos asistenciales.\nMédico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clínico del paciente:\nPaciente de ascendencia nórdica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: alejandro@ciberned.es\nTelefono fijo: +34 971 59 71 11\nTelefono movil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro XZONAX Galvez\nDNI: 61787147Q\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 11\nTelefono movil: +34 6XFECHAX 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela."
...,...,...,...
995,"Datos del paciente.\nNombre: Concepción Sánchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGénero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellón, Comunidad Valenciana\nCódigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTeléfono fijo: +34 964 68 03 70\nTeléfono móvil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMédico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clínico en Enfermedades Digestivas. Instituto de Investigación Biomédica en Red de Enfermedades Hepáticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clínico del paciente:\nPaciente de ascendencia indígena sudamericana de 13 años de edad, acompañado de su madre. Se realizó un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGenero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTelefono fijo: +34 964 68 03 70\nTelefono movil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle XDIRECCIONX Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 70\nTelefono movil: +34 6XFECHAX 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida XDIRECCIONX de Lemos 3-5. 28029. Madrid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H."
996,"Datos del paciente.\nNombre: Silvia Carrasco López\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGénero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCódigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTeléfono fijo: +34 913 43 68 26\nTeléfono móvil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMédico: Dra. Remedios Casas Martínez. NC 002225764. Residente de 3° año en Oftalmología. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Málaga Oeste\n\nInforme clínico del paciente:\nPaciente exfumador de 59 años de edad. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGenero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTelefono fijo: +34 913 43 68 26\nTelefono movil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle XDIRECCIONX Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 26\nTelefono movil: +34 6XFECHAX 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y Cajal, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105."
997,"Datos del paciente.\nNombre: María Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGénero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCódigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTeléfono fijo: +34 926 82 07 12\nTeléfono móvil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondición de riesgo: Soldado\n\nDatos asistenciales.\nMédico: Dra. Sofía Zamora Bermudez. NC 674953567. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de León\nMatrícula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGenero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTelefono fijo: +34 926 82 07 12\nTelefono movil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 12\nTelefono movil: +34 6XFECHAX 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX Pidal, s/n. 14004. XZONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre."
998,"Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGénero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Úbeda, Salamanca, Castilla y León\nCódigo postal: 37590\nEmail: montoya@ciberehd.org\nTeléfono fijo: +34 923 00 92 67\nTeléfono móvil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondición de riesgo: Pintor de Construcción\n\nDatos asistenciales.\nMédico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcalá de Henares\nMatrícula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clínico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.239.21, con dirección MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGenero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: montoya@ciberehd.org\nTelefono fijo: +34 923 00 92 67\nTelefono movil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 67\nTelefono movil: +34 6XFECHAX 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y Cajal, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14."


### PERSONA

Chequea token a token si:

- ~~comienza con mayúscual y sigue con minúsculas~~
- es un nombre,
- es un apellido

In [128]:
## Lista de nombres en minúscula, sin números, con al menos 3 letras, sin stop Words y con frecuencia mayor a 5000.
first_names = pd.read_csv("datasets/nombres_editados.csv", sep=';', index_col = None)['nombre_limpio'].to_list()
last_names = pd.read_csv("datasets/apellidos_unicos.csv", sep=';', index_col = None)['apellido'].to_list()
names = [
    remove_accents(name).strip()
    for name in first_names + last_names
    if isinstance(name, str) and len(name) > 1 and not re.search(ILLEGAL_CHAR_REGEX, name)
]
names[:5]

['aaron', 'abel', 'abelardo', 'abigail', 'abraham']

In [129]:
len(set(names))

75911

In [130]:
# Exclude common noun names from list
noun_names = [
    'papa', 'tamaño', 'salud', 'hospital', 'niño', 'medico', 'toma', 'fecha', 'rodilla', 'vigil',
    'abajo', 'alegre', 'abusar', 'cola', 'cancela', 'grande', 'cortes', 'saliva', 'sola', 
    'areas', 'bajo', 'bien', 'blando', 'bota', 'buena', 'pareja', 'claro', 'claros', 'colica', 
    'cornea', 'cristalino', 'agua', 'corto', 'tiempo', 'grado', 'dieta', 'entrada', 'esposo', 
    'izquierdo', 'genera', 'general', 'genero', 'grados', 'haber', 'hierro', 'tres', 'igual', 
    'indico', 'plano', 'ligero', 'mañana', 'medica', 'medio', 'mucha', 'nacer', 'noto', 
    'parejas', 'pares', 'parto', 'pene', 'peso', 'piernas', 'requiere', 'semana', 'vaginal', 
    'varon', 'vino', 'nacimiento', 'hitos', 'menor', 'cordon', 'cuello', 'guardia', 'muñeca',
    'factor', 'chagas', 'sano', 'camino', 'manera', 'signo', 'come', 'solo', 'sola', 'cera',
    'tapon', 'cabeza', 'base', 'lenta', 'patron', 'borde', 'abuela', 'alli', 'alto', 'amigo',
    'anillo', 'aporta', 'area', 'arriba', 'bajar', 'balon', 'barrio', 'beber', 'boca',
    'brindo', 'bueno', 'busca', 'calle', 'calores', 'campo', 'cara', 'cargo', 'casa',
    'casi', 'caso', 'causa', 'cayo', 'cece', 'cena', 'chica', 'chico', 'constante',
    'cuadro', 'cuesta', 'debi', 'debia', 'deseo', 'deseo', 'DESEO', 'dias', 'dios',
    'done', 'dura', 'duro', 'escalera', 'estudia', 'figura', 'foco', 'Fondo', 'fosas',
    'fuertes', 'gato', 'gotas', 'guarda', 'hacen', 'haga', 'Jardin', 'labo', 'lado', 'lava',
    'legal', 'ligo', 'mala', 'mando', 'mano', 'mares', 'matar', 'mayor', 'medicina',
    'mesas', 'mori', 'mover', 'nace', 'nota', 'nuevo', 'pala', 'panico', 'pared', 'paro',
    'placer', 'presentado', 'presta', 'primo', 'publico', 'quiero', 'quizas', 'raiz',
    'redes', 'respeto', 'riesgo', 'rojo', 'rota', 'ruta', 'saber', 'sabia', 'sale',
    'sangra', 'segundo', 'segura', 'seis', 'severo', 'sobrino', 'soma', 'sule', 'teme',
    'terceros', 'tira', 'tirado', 'torno', 'trabajo', 'tranquilo', 'valor', 'vaya',
    'vender', 'vida', 'vital', 'vive', 'vivian', 'vuelo', 'comer', 'fuerte', 'doble', 'sorda',
    'numero', 'dolores', 'rostro', 'paterno', 'colon', 'diab', 'corte', 'crema',
    'bazo', 'camara', 'rabia', 'fuma', 'calcio', 'indice', 'timpano', 'mandato', 'escuela',
    'venia', 'vecino', 'terreno', 'sordo', 'salia', 'sala', 'saco', 'regalo', 'reales',
    'real', 'rato', 'rama', 'puerta', 'plata', 'pase', 'molares', 'llano', 'feto',
    'espinal', 'decia', 'cosa', 'carta', 'carne', 'cabello', 'brusco', 'bordes', 'bases',
    'baño', 'baba', 'avanza', 'amor', 'labio', 'maligno', 'teta'
]

names = set([name for name in names if name not in noun_names])
len(set(names))

75654

In [131]:
regexp_names = r'\b({})\b'.format('|'.join(names))

name_anonymizer = RegexAnnonimizer(
    content_regex=regexp_names,
    category='XPERSONAX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
    verbose=True
)

print(name_anonymizer.anonymize("Paciente con tumor de gran tamaño medico con ibuprofeno."))
print(name_anonymizer.anonymize("Caida del cordon umbilical."))
print(name_anonymizer.anonymize("Acude a consulta con hermano Abel."))

Paciente con tumor de gran tamaño medico con ibuprofeno.
Caida del cordon umbilical.
Replacing Abel
Acude a consulta con hermano XPERSONAX.


In [132]:
documents['anonymized'] = documents['anonymized'].apply(name_anonymizer.anonymize)

Replacing Maria
Replacing Soledad
Replacing Moreno
Replacing Roca
Replacing Almagro
Replacing Ciudad
Replacing Valencia
Replacing NASS
Replacing Juan
Replacing Ramon
Replacing Benito
Replacing Vicente
Replacing Lemos
Replacing Madrid
Replacing Victoria
Replacing Plaza
Replacing Roca
Replacing Ciudad
Replacing Gijon
Replacing NASS
Replacing Eric
Replacing Alarcon
Replacing Pascual
Replacing Madrid
Replacing Malaga
Replacing coche
Replacing Mercedes
Replacing Benz
Replacing iris
Replacing Iñigo
Replacing Escobar
Replacing Rivero
Replacing Ciudad
Replacing NASS
Replacing Emma
Replacing Vicente
Replacing Santos
Replacing Madrid
Replacing Manuela
Replacing Morales
Replacing Cabrera
Replacing Ciudad
Replacing Elda
Replacing Teruel
Replacing Aragon
Replacing Susana
Replacing Carmona
Replacing Pidal
Replacing Alejandro
Replacing Galvez
Replacing Luna
Replacing Ciudad
Replacing Palma
Replacing Islas
Replacing NASS
Replacing Omar
Replacing Guerrero
Replacing Maldonado
Replacing Lemos
Replacing M

In [133]:
documents[documents['anonymized'].str.contains('XPERSONAX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
0,"Datos del paciente.\nNombre: María Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGénero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCódigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTeléfono fijo: +34 960 66 89 48\nTeléfono móvil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondición de riesgo: Científico de Investigación\n\nDatos asistenciales.\nMédico: Dr. Juan Ramón Benito Vicente. NC 097900390. Investigador Clínico en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clínico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Soledad Moreno Roca\nDNI: 23556552K\nFecha de nacimiento: 09/01/1941\nGenero: Mujer\nDomicilio: Calle de Almagro 80\nCiudad: Denia, Valencia, Comunidad Valenciana\nCodigo postal: 46571\nEmail: mariasoledad_roca@ucm.es\nTelefono fijo: +34 960 66 89 48\nTelefono movil: +34 660 57 14 97\nNHC: 2409425\nNASS: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. Juan Ramon Benito Vicente. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 05/06/1996\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 23556552K\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX XPERSONAX 80\nXPERSONAX: Denia, XPERSONAX, Comunidad Valenciana\nCodigo postal: 46571\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 48\nTelefono movil: +34 6XFECHAX 97\nNHC: 2409425\nXPERSONAX: 468043486571\nCondicion de riesgo: Cientifico de Investigacion\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX. NC 097900390. Investigador Clinico en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Carabanchel\n\nInforme clinico del paciente:\nPaciente sobreviviente de violencia de 55 años de edad, acompañado de su madre."
1,"Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGénero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijón, La Rioja, La Rioja\nCódigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTeléfono fijo: +34 941 29 92 15\nTeléfono móvil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondición de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMédico: Dr. Eric Alarcon Pascual. NC 646335336. Neurólogo Investigador en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Málaga Oeste\nMatrícula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clínico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tía. Se registró una sesión de escaneo del iris, el código obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: Victoria Plaza Roca\nDNI: 75398682J\nFecha de nacimiento: 27/09/2014\nGenero: F\nDomicilio: Calle de Arganzuela 18\nCiudad: Gijon, La Rioja, La Rioja\nCodigo postal: 26167\nEmail: victoria_roca@ciberer.es\nTelefono fijo: +34 941 29 92 15\nTelefono movil: +34 641 97 74 21\nNHC: 1980495\nNASS: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. Eric Alarcon Pascual. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 21/10/2021\nEpisodio: 24822158\nCentro de salud: Centro de Salud Malaga Oeste\nMatricula del coche: 5267NPH\nModelo: Mercedes-Benz C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del iris, el codigo obtenido para revisarla es KJ369UZN325.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 75398682J\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX Arganzuela 18\nXPERSONAX: XPERSONAX, XZONAX, XZONAX\nCodigo postal: 26167\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 15\nTelefono movil: +34 6XFECHAX 21\nNHC: 1980495\nXPERSONAX: 620412206059\nCondicion de riesgo: Operador de Maquinaria Pesada\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX. NC 646335336. Neurologo Investigador en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 24822158\nCentro de salud: Centro de Salud XPERSONAX Oeste\nMatricula del XPERSONAX: 5267NPH\nModelo: XPERSONAX-XPERSONAX C-Class\nVIN: VSL4HQZ1ZGI361218\n\nInforme clinico del paciente:\nPaciente de ascendencia australiana de 7 años de edad, acompañado de su tia. Se registro una sesion de escaneo del XPERSONAX, el codigo obtenido para revisarla es KJ369UZN325."
2,"Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGénero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCódigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTeléfono fijo: +34 972 65 06 71\nTeléfono móvil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondición de riesgo: Trabajador de Sanitización\n\nDatos asistenciales.\nMédico: Dra. Emma Vicente Santos. NC 588434040. Neuróloga Investigadora en Trastornos Cognitivos. Instituto de Investigación Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Córdoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartín\n\nInforme clínico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: Iñigo Escobar Rivero\nDNI: 97790373P\nFecha de nacimiento: 08/09/1944\nGenero: Masculino\nDomicilio: Calle de los Embajadores 88\nCiudad: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: inigo-escobar@imibic.org\nTelefono fijo: +34 972 65 06 71\nTelefono movil: +34 772 38 57 17\nNHC: 8245120\nNASS: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. Emma Vicente Santos. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de Octubre (Imas12). Avenida de Cordoba, s/n. 28041. Madrid. España.\nFecha de ingreso: 24/02/1975\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 97790373P\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX los Embajadores 88\nXPERSONAX: Telde, Gerona, Cataluña\nCodigo postal: 17012\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 71\nTelefono movil: +34 7XFECHAX 17\nNHC: 8245120\nXPERSONAX: 724651062765\nCondicion de riesgo: Trabajador de Sanitizacion\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 588434040. Neurologa Investigadora en Trastornos Cognitivos. Instituto de Investigacion Sanitaria del Hospital 12 de XFECHAX (Imas12). Avenida XDIRECCIONX XZONAX, s/n. 28041. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 00580872\nCentro de salud: Centro de Salud Chamartin\n\nInforme clinico del paciente:\nPaciente migrante de 30 años de edad."
3,"Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGénero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragón\nCódigo postal: 44075\nEmail: manuela@uca.es\nTeléfono fijo: +34 978 49 11 69\nTeléfono móvil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMédico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clínico del paciente:\nPaciente judío de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: Manuela Morales Cabrera\nDNI: 67539363R\nFecha de nacimiento: 11/01/1989\nGenero: Mujer\nDomicilio: Calle de Embajadores 61, 6X\nCiudad: Elda, Teruel, Aragon\nCodigo postal: 44075\nEmail: manuela@uca.es\nTelefono fijo: +34 978 49 11 69\nTelefono movil: +34 678 44 45 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. Susana Carmona Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 09/03/2025\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 67539363R\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX Embajadores 61, 6X\nXPERSONAX: XPERSONAX, XPERSONAX, XPERSONAX\nCodigo postal: 44075\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 6XFECHAX 86\nNHC: 6194951\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX Rey. NC 610597653. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX XPERSONAX, s/n. 14004. XZONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 50535453\nCentro de salud: Centro de Salud Valdemoro\n\nInforme clinico del paciente:\nPaciente judio de 36 años de edad, acompañado de su amigo."
4,"Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGénero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCódigo postal: 07533\nEmail: alejandro@ciberned.es\nTeléfono fijo: +34 971 59 71 11\nTeléfono móvil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondición de riesgo: Soldador\n\nDatos asistenciales.\nMédico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clínico del paciente:\nPaciente de ascendencia nórdica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: Alejandro Mendoza Galvez\nDNI: 61787147Q\nFecha de nacimiento: 04/12/1958\nGenero: H\nDomicilio: Calle de la Luna 65\nCiudad: Palma, Ibiza, Islas Baleares\nCodigo postal: 07533\nEmail: alejandro@ciberned.es\nTelefono fijo: +34 971 59 71 11\nTelefono movil: +34 671 86 66 04\nNHC: 8587216\nNASS: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. Omar Guerrero Maldonado. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 18/09/1966\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela.","Datos del paciente.\nNombre: XPERSONAX XZONAX XPERSONAX\nDNI: 61787147Q\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la XPERSONAX 65\nXPERSONAX: XPERSONAX, Ibiza, XPERSONAX Baleares\nCodigo postal: 07533\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 11\nTelefono movil: +34 6XFECHAX 04\nNHC: 8587216\nXPERSONAX: 368106130992\nCondicion de riesgo: Soldador\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX. NC 298972407. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 07261286\nCentro de salud: Centro de Salud Aranjuez\n\nInforme clinico del paciente:\nPaciente de ascendencia nordica o escandinava de 7 años de edad, acompañado de su abuela."
...,...,...,...
995,"Datos del paciente.\nNombre: Concepción Sánchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGénero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellón, Comunidad Valenciana\nCódigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTeléfono fijo: +34 964 68 03 70\nTeléfono móvil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMédico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clínico en Enfermedades Digestivas. Instituto de Investigación Biomédica en Red de Enfermedades Hepáticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clínico del paciente:\nPaciente de ascendencia indígena sudamericana de 13 años de edad, acompañado de su madre. Se realizó un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: Concepcion Sanchez Arias\nDNI: 63635019E\nFecha de nacimiento: 03/02/1949\nGenero: Femenino\nDomicilio: Calle del Nuncio 16\nCiudad: Guadix, Castellon, Comunidad Valenciana\nCodigo postal: 12646\nEmail: concepcion.sanchez.arias1330@aol.com\nTelefono fijo: +34 964 68 03 70\nTelefono movil: +34 664 54 58 16\nNHC: 2353890\nNASS: 300045530855\n\nDatos asistenciales.\nMedico: Dr. Ricardo Pacheco Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 09/02/1962\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 63635019E\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle XDIRECCIONX XPERSONAX 16\nXPERSONAX: Guadix, XPERSONAX, Comunidad Valenciana\nCodigo postal: 12646\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 70\nTelefono movil: +34 6XFECHAX 16\nNHC: 2353890\nXPERSONAX: 300045530855\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX Rey. NC 158928507. Investigador Clinico en Enfermedades Digestivas. Instituto de Investigacion Biomedica en Red de Enfermedades Hepaticas y Digestivas (CIBERehd). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 21493589\nCentro de salud: Centro de Salud Barajas\n\nInforme clinico del paciente:\nPaciente de ascendencia indigena sudamericana de 13 años de edad, acompañado de su madre. Se realizo un expediente con URL http://example-hospital.org//65390546H."
996,"Datos del paciente.\nNombre: Silvia Carrasco López\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGénero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCódigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTeléfono fijo: +34 913 43 68 26\nTeléfono móvil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMédico: Dra. Remedios Casas Martínez. NC 002225764. Residente de 3° año en Oftalmología. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Málaga Oeste\n\nInforme clínico del paciente:\nPaciente exfumador de 59 años de edad. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: Silvia Carrasco Lopez\nDNI: 73772873M\nFecha de nacimiento: 03/02/1947\nGenero: M\nDomicilio: Calle de Bravo Murillo 69\nCiudad: San Vicente del Raspeig, Madrid, Madrid\nCodigo postal: 28907\nEmail: silvia.carrasco195@gmail.com\nTelefono fijo: +34 913 43 68 26\nTelefono movil: +34 615 72 09 54\nNHC: 5151310\nNASS: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios Casas Martinez. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 20/07/2006\nEpisodio: 03975462\nCentro de salud: Centro de Salud Malaga Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 73772873M\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle XDIRECCIONX XPERSONAX 69\nXPERSONAX: San XPERSONAX del Raspeig, XPERSONAX, XPERSONAX\nCodigo postal: 28907\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 26\nTelefono movil: +34 6XFECHAX 54\nNHC: 5151310\nXPERSONAX: 021771724443\n\nDatos asistenciales.\nMedico: Dra. Remedios XPERSONAX. NC 002225764. Residente de 3° año en Oftalmologia. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y XPERSONAX, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 03975462\nCentro de salud: Centro de Salud XPERSONAX Oeste\n\nInforme clinico del paciente:\nPaciente exfumador de 59 años de edad. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es NQ616NVL105."
997,"Datos del paciente.\nNombre: María Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGénero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCódigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTeléfono fijo: +34 926 82 07 12\nTeléfono móvil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondición de riesgo: Soldado\n\nDatos asistenciales.\nMédico: Dra. Sofía Zamora Bermudez. NC 674953567. Investigadora Clínica en Medicina Interna. Instituto Maimónides de Investigación Biomédica de Córdoba (IMIBIC). Avenida Menéndez Pidal, s/n. 14004. Córdoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de León\nMatrícula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Rosario Herrera Garrido\nDNI: 41285166M\nFecha de nacimiento: 18/05/2012\nGenero: Mujer\nDomicilio: Calle de Santa Ana 46\nCiudad: Salamanca, Ciudad Real, Castilla-La Mancha\nCodigo postal: 13729\nEmail: mariarosariogarrido@hotmail.com\nTelefono fijo: +34 926 82 07 12\nTelefono movil: +34 626 67 72 55\nNHC: 6375672\nNASS: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. Sofia Zamora Bermudez. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de Cordoba (IMIBIC). Avenida Menendez Pidal, s/n. 14004. Cordoba. España.\nFecha de ingreso: 19/07/2018\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de Leon\nMatricula del coche: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 41285166M\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX XPERSONAX 46\nXPERSONAX: XPERSONAX, XPERSONAX Real, XPERSONAX-La Mancha\nCodigo postal: 13729\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 12\nTelefono movil: +34 6XFECHAX 55\nNHC: 6375672\nXPERSONAX: 458155862406\nCondicion de riesgo: Soldado\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 674953567. Investigadora Clinica en Medicina Interna. Instituto Maimonides de Investigacion Biomedica de XZONAX (IMIBIC). Avenida XDIRECCIONX XPERSONAX, s/n. 14004. XZONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 36901283\nHospital: Complejo Asistencial Universitario de XPERSONAX\nMatricula del XPERSONAX: 7294RBK\nModelo: Honda CR-V\nVIN: VSJ4KULILXW135919\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 6 años de edad, acompañado de su madre."
998,"Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGénero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Úbeda, Salamanca, Castilla y León\nCódigo postal: 37590\nEmail: montoya@ciberehd.org\nTeléfono fijo: +34 923 00 92 67\nTeléfono móvil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondición de riesgo: Pintor de Construcción\n\nDatos asistenciales.\nMédico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcalá de Henares\nMatrícula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clínico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.239.21, con dirección MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: Oliver Abad Montoya\nDNI: 59660306P\nFecha de nacimiento: 04/02/1966\nGenero: H\nDomicilio: Calle de la Princesa 96\nCiudad: Ubeda, Salamanca, Castilla y Leon\nCodigo postal: 37590\nEmail: montoya@ciberehd.org\nTelefono fijo: +34 923 00 92 67\nTelefono movil: +34 623 81 70 60\nNHC: 0395567\nNASS: 855689108455\nCondicion de riesgo: Pintor de Construccion\n\nDatos asistenciales.\nMedico: Dra. Adriana Redondo Santos. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/04/1984\nEpisodio: 32673391\nCentro de salud: Centro de Salud Alcala de Henares\nMatricula del coche: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 59660306P\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX la Princesa 96\nXPERSONAX: XPERSONAX, XPERSONAX, XPERSONAX y XPERSONAX\nCodigo postal: 37590\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 67\nTelefono movil: +34 6XFECHAX 60\nNHC: 0395567\nXPERSONAX: 855689108455\nCondicion de riesgo: XPERSONAX de Construccion\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 093560057. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y XPERSONAX, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 32673391\nCentro de salud: Centro de Salud XPERSONAX de XPERSONAX\nMatricula del XPERSONAX: 2787ODO\nModelo: Honda Civic\nVIN: VSWN31846HJ039414\n\nInforme clinico del paciente:\nPaciente de ascendencia sudamericana de 18 años de edad, acompañado de su abuelo. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.239.21, con direccion MAC 00:ED:A8:79:88:14."


### DRX

In [134]:
# ## Expresión regular para DRX

# # Distancia máxima tolerada entre el token trigger y el último que puede ser marcado como esa entidad.
# dist_token = 15

# # originales-------------------------------------------
# #titulos = '((?<=\.| )|^)dr(?=(a|\.| ))|doctor(a?)|((?<=\.| )|^)licenciad[a|o]|((?<=\.| )|^)lic(\.| ?)'
# #-------------------------------------------------------

# regexp_drx = re.compile(r'((?<=\.| )|^)dr(?=(a|\.| |$))|doctor(a?)|((?<=\.| )|^)licenciad[a|o]|((?<=\.| )|^)lic(\.| ?)',
#                         re.IGNORECASE)

# regexp_drx_mayusculas = re.compile(r'^[A-Z]{1}[a-z]+')

# def deidentificar_drx(texto_a_deidentificar):
#     # Genero la lista a partir del texto_preprocesado de esa fila
#     lista_texto_a_deidentificar = re.split('([\.,:\? -])',texto_a_deidentificar)
    
#     ## Iteración entre tokens de la lista del texto a deidentificar
#     drx_flag = False
#     for j,token in enumerate(lista_texto_a_deidentificar):
#         # A partir del segundo token
#         if j > 0:
#             # Si el token actual es precedido por dr/doc,etc
#             if regexp_drx.search(lista_texto_a_deidentificar[j-1]):
#                 drx_flag=True
#                 pos_token = j
#                 # Si el token actual comienza con mayúscula
# #                 if (lista_texto_a_deidentificar[j].lower() in lista_nombres) or regexp_drx_mayusculas.search(lista_texto_a_deidentificar[j]):
# #                 # Reemplazar el token actual por el patrón correspondiente
# #                     if output_tipo==1:
# #                         lista_texto_a_deidentificar[j] = '<'+ lista_texto_a_deidentificar[j] +'>'
# #                     if output_tipo==2:
# #                         lista_texto_a_deidentificar[j] = 'XXXX'
# #                     if output_tipo==3:
# #                         lista_texto_a_deidentificar[j] = '<DRX>'
#             # Si el token actual es un nombre o apellido
# #             if drx == True and (lista_texto_a_deidentificar[j].lower() in lista_nombres or regexp_drx_mayusculas.search(lista_texto_a_deidentificar[j])) and j-pos_token<dist_token:
#             if drx_flag == True and (lista_texto_a_deidentificar[j]=='XPERSONAX' and j-pos_token<dist_token):
#                     # Reemplazar el token actual por el patrón correspondiente
#                     if output_tipo==1:
#                         lista_texto_a_deidentificar[j] = '<'+ lista_texto_a_deidentificar[j] +'>'
#                     if output_tipo==2:
#                         lista_texto_a_deidentificar[j] = 'XXXX'
#                     if output_tipo==3:
#                         lista_texto_a_deidentificar[j] = 'XDRXX'    
# #             else:
# #                 drx_flag == False
    
#     # Generar el texto deidentificado concatenando todos los tokens ya revisados (y modificados si corrrespondiera)
#     return ''.join(lista_texto_a_deidentificar)
    
# textos_a_deidentificar['texto_anonimizado'] = textos_a_deidentificar['texto_anonimizado'].apply(deidentificar_drx)
# #     Aclarar por qué busco en listas (minus y mayus())

### EPOF

Enfermedades poco frecuentes

In [135]:
epof = pd.read_csv("./datasets/epof.csv", names=['enfermedad'], header=None)
lista_epof = epof['enfermedad'].to_list()
lista_epof[:10]

['Abetalipoproteinemia',
 'Abscesos asépticos sensibles a corticosteroides',
 'Acalasia - microcefalia',
 'Acalasia idiopática',
 'Acalvaria',
 'Acatalasemia',
 'Accidente cerebrovascular isquémico pediátrico',
 'Aceruloplasminemia',
 'Acidemia isovalérica',
 'Acidemia malónica y metilmalónica combinada']

In [136]:
epof_names = set([
    remove_accents(name).strip()
    for name in lista_epof if len(name) > 1 and not re.search(ILLEGAL_CHAR_REGEX, name)
])

regexp_epof = '|'.join(epof_names)

epof_anonymizer = RegexAnnonimizer(
    content_regex=regexp_epof,
    category='XEPoFX',
    re_flags=re.IGNORECASE,
    output_type=OUTPUT_TYPE,
)

print(epof_anonymizer.anonymize("Paciente presenta acalvaria aguda."))
print(epof_anonymizer.anonymize("Paciente presenta Acidemia malonica y metilmalonica combinada."))

Paciente presenta XEPoFX aguda.
Paciente presenta XEPoFX.


In [137]:
documents['anonymized'] = documents['anonymized'].apply(epof_anonymizer.anonymize)

In [138]:
documents[documents['anonymized'].str.contains('XEPoFX', case=False)]

Unnamed: 0,original,preprocessed,anonymized
42,"Datos del paciente.\nNombre: Vanessa Fernández Hidalgo\nDNI: 81323063P\nFecha de nacimiento: 06/10/1955\nGénero: M\nDomicilio: Calle de Amor de Dios 75, 4N\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52956\nEmail: vanessahidalgo536@gmail.com\nTeléfono fijo: +34 956 49 68 35\nTeléfono móvil: +34 756 27 78 89\nNHC: 0359081\nNASS: 066639713897\nCondición de riesgo: Conductor de Camión\n\nDatos asistenciales.\nMédico: Dra. Noemí Santos Valero. NC 493742703. Investigadora Principal en Parkinson. Instituto de Investigación Biomédica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 12/03/1984\nHospital: Hospital Clínic Universitario de Valencia\nMatrícula del coche: 1694JZP\nModelo: Ram 1500\nVIN: VSCYFG5QP0R652821\n\nInforme clínico del paciente:\nPaciente vegetariano de 28 años de edad.","Datos del paciente.\nNombre: Vanessa Fernandez Hidalgo\nDNI: 81323063P\nFecha de nacimiento: 06/10/1955\nGenero: M\nDomicilio: Calle de Amor de Dios 75, 4N\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52956\nEmail: vanessahidalgo536@gmail.com\nTelefono fijo: +34 956 49 68 35\nTelefono movil: +34 756 27 78 89\nNHC: 0359081\nNASS: 066639713897\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dra. Noemi Santos Valero. NC 493742703. Investigadora Principal en Parkinson. Instituto de Investigacion Biomedica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 12/03/1984\nHospital: Hospital Clinic Universitario de Valencia\nMatricula del coche: 1694JZP\nModelo: Ram 1500\nVIN: VSCYFG5QP0R652821\n\nInforme clinico del paciente:\nPaciente vegetariano de 28 años de edad.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 81323063P\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle XDIRECCIONX Amor de Dios 75, 4N\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52956\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 35\nTelefono movil: +34 7XFECHAX 89\nNHC: 0359081\nXPERSONAX: 066639713897\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 493742703. Investigadora Principal en Parkinson. Instituto de Investigacion Biomedica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nHospital: Hospital Clinic Universitario de XPERSONAX\nMatricula del XPERSONAX: 1694JZP\nModelo: Ram 1500\nVIN: VSCYFG5QP0R652821\n\nInforme clinico del paciente:\nPaciente vegetariano de 28 años de edad."
62,"Datos del paciente.\nNombre: Miriam Contreras Escudero\nDNI: 80827695Z\nFecha de nacimiento: 09/05/2004\nGénero: M\nDomicilio: Calle del Duque de Alba 58\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52023\nEmail: LS0mn@uhu.es\nTeléfono fijo: +34 956 46 20 02\nTeléfono móvil: +34 656 90 48 64\nNHC: 5163263\nNASS: 781658362040\n\nDatos asistenciales.\nMédico: Dra. María Antonia López Robles. NC 049471038. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigación Biomédica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 28/02/2024\nHospital: Hospital General Universitario Morales Meseguer\nMatrícula del coche: 4463EXT\nModelo: Ford F-150\nVIN: VSLHNKB2R9G964314\n\nInforme clínico del paciente:\nPaciente fumador de 19 años de edad, acompañado de su compañero de trabajo.","Datos del paciente.\nNombre: Miriam Contreras Escudero\nDNI: 80827695Z\nFecha de nacimiento: 09/05/2004\nGenero: M\nDomicilio: Calle del Duque de Alba 58\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52023\nEmail: LS0mn@uhu.es\nTelefono fijo: +34 956 46 20 02\nTelefono movil: +34 656 90 48 64\nNHC: 5163263\nNASS: 781658362040\n\nDatos asistenciales.\nMedico: Dra. Maria Antonia Lopez Robles. NC 049471038. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 28/02/2024\nHospital: Hospital General Universitario Morales Meseguer\nMatricula del coche: 4463EXT\nModelo: Ford F-150\nVIN: VSLHNKB2R9G964314\n\nInforme clinico del paciente:\nPaciente fumador de 19 años de edad, acompañado de su compañero de trabajo.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 80827695Z\nFecha de nacimiento: XFECHAX\nGenero: M\nDomicilio: Calle XDIRECCIONX XPERSONAX de XPERSONAX 58\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52023\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 02\nTelefono movil: +34 6XFECHAX 64\nNHC: 5163263\nXPERSONAX: 781658362040\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 049471038. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nHospital: Hospital General Universitario XPERSONAX\nMatricula del XPERSONAX: 4463EXT\nModelo: XPERSONAX F-150\nVIN: VSLHNKB2R9G964314\n\nInforme clinico del paciente:\nPaciente fumador de 19 años de edad, acompañado de su compañero de trabajo."
80,"Datos del paciente.\nNombre: Rebeca Miguel Gallego\nDNI: 63116393T\nFecha de nacimiento: 23/05/1931\nGénero: Mujer\nDomicilio: Calle de los Jardines 63\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52076\nEmail: rebeca.gallego@ucm.es\nTeléfono fijo: +34 956 45 98 95\nTeléfono móvil: +34 756 94 94 29\nNHC: 1308614\nNASS: 159849869885\nCondición de riesgo: Conductor de Camión\n\nDatos asistenciales.\nMédico: Dra. Laia Mora Blazquez. NC 889514124. Residente de 4° año en Cardiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 26/05/1998\nEpisodio: 55830169\nHospital: Hospital Universitario de Fuenlabrada\n\nInforme clínico del paciente:\nPaciente usuario de drogas de 67 años de edad, acompañado de su padre. Se registró una consulta virtual desde la dirección IP (en red interna) 192.168.158.179, con dirección MAC C2:DC:65:68:94:73. Se realizó un expediente con URL http://example-cardiology.com//10205126J.","Datos del paciente.\nNombre: Rebeca Miguel Gallego\nDNI: 63116393T\nFecha de nacimiento: 23/05/1931\nGenero: Mujer\nDomicilio: Calle de los Jardines 63\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52076\nEmail: rebeca.gallego@ucm.es\nTelefono fijo: +34 956 45 98 95\nTelefono movil: +34 756 94 94 29\nNHC: 1308614\nNASS: 159849869885\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dra. Laia Mora Blazquez. NC 889514124. Residente de 4° año en Cardiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 26/05/1998\nEpisodio: 55830169\nHospital: Hospital Universitario de Fuenlabrada\n\nInforme clinico del paciente:\nPaciente usuario de drogas de 67 años de edad, acompañado de su padre. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.158.179, con direccion MAC C2:DC:65:68:94:73. Se realizo un expediente con URL http://example-cardiology.com//10205126J.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 63116393T\nFecha de nacimiento: XFECHAX\nGenero: Mujer\nDomicilio: Calle XDIRECCIONX los XPERSONAX 63\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52076\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 95\nTelefono movil: +34 7XFECHAX 29\nNHC: 1308614\nXPERSONAX: 159849869885\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dra. Laia XPERSONAX. NC 889514124. Residente de 4° año en Cardiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 55830169\nHospital: Hospital Universitario de Fuenlabrada\n\nInforme clinico del paciente:\nPaciente usuario de drogas de 67 años de edad, acompañado de su padre. Se registro una consulta virtual desde la direccion IP (en red interna) 192.168.158.179, con direccion MAC C2:DC:65:68:94:73. Se realizo un expediente con URL http://example-cardiology.com//10205126J."
86,"Datos del paciente.\nNombre: Bruno Nieto Lorenzo\nDNI: 40505628Y\nFecha de nacimiento: 09/09/1993\nGénero: V\nDomicilio: Calle de los Relatores 47\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52398\nEmail: bruno-nieto@isciii.es\nTeléfono fijo: +34 956 18 24 69\nTeléfono móvil: +34 756 88 11 96\nNHC: 1217030\nCondición de riesgo: Trabajador de la Construcción\n\nDatos asistenciales.\nMédico: Dra. Andrea Suárez Nieto. NC 019378803. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigación Biomédica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 17/02/1997\nCentro de salud: Centro de Salud Leganés\n\nInforme clínico del paciente:\nPaciente de tez blanca de 3 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: Bruno Nieto Lorenzo\nDNI: 40505628Y\nFecha de nacimiento: 09/09/1993\nGenero: V\nDomicilio: Calle de los Relatores 47\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52398\nEmail: bruno-nieto@isciii.es\nTelefono fijo: +34 956 18 24 69\nTelefono movil: +34 756 88 11 96\nNHC: 1217030\nCondicion de riesgo: Trabajador de la Construccion\n\nDatos asistenciales.\nMedico: Dra. Andrea Suarez Nieto. NC 019378803. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 17/02/1997\nCentro de salud: Centro de Salud Leganes\n\nInforme clinico del paciente:\nPaciente de tez blanca de 3 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 40505628Y\nFecha de nacimiento: XFECHAX\nGenero: V\nDomicilio: Calle XDIRECCIONX los Relatores 47\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52398\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 69\nTelefono movil: +34 7XFECHAX 96\nNHC: 1217030\nCondicion de riesgo: Trabajador de la Construccion\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 019378803. Psiquiatra Especialista en Trastornos de Ansiedad. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Leganes\n\nInforme clinico del paciente:\nPaciente de tez XPERSONAX de 3 años de edad, acompañado de su padre."
98,"Datos del paciente.\nNombre: Sebastián Espinosa Flores\nDNI: 75812855W\nFecha de nacimiento: 29/04/1969\nGénero: H\nDomicilio: Calle de Arenal 3\nCiudad: Ciudad autónoma de Melilla, Melilla, \nCódigo postal: 51940\nEmail: sebastian.espinosa-flores@ioba.med.uva.es\nTeléfono fijo: +34 951 17 35 28\nTeléfono móvil: +34 651 62 85 28\nNHC: 8846957\nNASS: 797769606499\nCondición de riesgo: Trabajador Industrial\n\nDatos asistenciales.\nMédico: Dra. Carla Román Marti. NC 694260634. Investigadora Principal en Parkinson. Instituto de Investigación Biomédica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 02/03/2008\nHospital: Complejo Asistencial Universitario de León\n\nInforme clínico del paciente:\nPaciente no fumador de 38 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: Sebastian Espinosa Flores\nDNI: 75812855W\nFecha de nacimiento: 29/04/1969\nGenero: H\nDomicilio: Calle de Arenal 3\nCiudad: Ciudad autonoma de Melilla, Melilla, \nCodigo postal: 51940\nEmail: sebastian.espinosa-flores@ioba.med.uva.es\nTelefono fijo: +34 951 17 35 28\nTelefono movil: +34 651 62 85 28\nNHC: 8846957\nNASS: 797769606499\nCondicion de riesgo: Trabajador Industrial\n\nDatos asistenciales.\nMedico: Dra. Carla Roman Marti. NC 694260634. Investigadora Principal en Parkinson. Instituto de Investigacion Biomedica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 02/03/2008\nHospital: Complejo Asistencial Universitario de Leon\n\nInforme clinico del paciente:\nPaciente no fumador de 38 años de edad, acompañado de su madre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 75812855W\nFecha de nacimiento: XFECHAX\nGenero: H\nDomicilio: Calle XDIRECCIONX Arenal 3\nXPERSONAX: XPERSONAX autoXEPoFX de Melilla, Melilla, \nCodigo postal: 51940\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 28\nTelefono movil: +34 6XFECHAX 28\nNHC: 8846957\nXPERSONAX: 797769606499\nCondicion de riesgo: Trabajador Industrial\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 694260634. Investigadora Principal en Parkinson. Instituto de Investigacion Biomedica en Red de Enfermedades Neurodegenerativas (CIBERNED). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nHospital: Complejo Asistencial Universitario de XPERSONAX\n\nInforme clinico del paciente:\nPaciente no fumador de 38 años de edad, acompañado de su madre."
209,"Datos del paciente.\nNombre: Milagros Aranda Benito\nDNI: 44975688Q\nFecha de nacimiento: 06/07/1966\nGénero: Femenino\nDomicilio: Calle de la Luna 24\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52190\nEmail: milagrosaranda.benito@ciberned.es\nTeléfono fijo: +34 956 04 99 72\nTeléfono móvil: +34 756 77 59 06\nNHC: 6589713\nNASS: 375116329149\nCondición de riesgo: Bombero\n\nDatos asistenciales.\nMédico: Dr. Tomás Sánchez Luna. NC 569383045. Cardiólogo Especialista en Electrofisiología. Instituto de Investigación Biomédica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 23/09/2005\nCentro de salud: Centro de Salud Centro\nMatrícula del coche: 2829TXZ\nModelo: Subaru Outback\nVIN: VSPT9KHK7WI495241\n\nInforme clínico del paciente:\nPaciente refugiado de 39 años de edad. Se realizó un expediente con URL http://example-nutrition.net//83288308Z. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es KV906CWG103. Se registró una sesión de firma biométrica, el código obtenido para revisarla es VN139ZEL949.","Datos del paciente.\nNombre: Milagros Aranda Benito\nDNI: 44975688Q\nFecha de nacimiento: 06/07/1966\nGenero: Femenino\nDomicilio: Calle de la Luna 24\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52190\nEmail: milagrosaranda.benito@ciberned.es\nTelefono fijo: +34 956 04 99 72\nTelefono movil: +34 756 77 59 06\nNHC: 6589713\nNASS: 375116329149\nCondicion de riesgo: Bombero\n\nDatos asistenciales.\nMedico: Dr. Tomas Sanchez Luna. NC 569383045. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 23/09/2005\nCentro de salud: Centro de Salud Centro\nMatricula del coche: 2829TXZ\nModelo: Subaru Outback\nVIN: VSPT9KHK7WI495241\n\nInforme clinico del paciente:\nPaciente refugiado de 39 años de edad. Se realizo un expediente con URL http://example-nutrition.net//83288308Z. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KV906CWG103. Se registro una sesion de firma biometrica, el codigo obtenido para revisarla es VN139ZEL949.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 44975688Q\nFecha de nacimiento: XFECHAX\nGenero: Femenino\nDomicilio: Calle XDIRECCIONX la XPERSONAX 24\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52190\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 72\nTelefono movil: +34 7XFECHAX 06\nNHC: 6589713\nXPERSONAX: 375116329149\nCondicion de riesgo: Bombero\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX. NC 569383045. Cardiologo Especialista en Electrofisiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Cardiovasculares (CIBERCV). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nCentro de salud: Centro de Salud Centro\nMatricula del XPERSONAX: 2829TXZ\nModelo: Subaru Outback\nVIN: VSPT9KHK7WI495241\n\nInforme clinico del paciente:\nPaciente refugiado de 39 años de edad. Se realizo un expediente con URL http://example-nutrition.net//83288308Z. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es KV906CWG103. Se registro una sesion de XPERSONAX biometrica, el codigo obtenido para revisarla es VN139ZEL949."
218,"Datos del paciente.\nNombre: Josefa Pacheco Segura\nDNI: 48618113T\nFecha de nacimiento: 04/11/2001\nGénero: F\nDomicilio: Calle de Génova 49\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52070\nEmail: pacheco.segura@protonmail.com\nTeléfono fijo: +34 956 96 54 88\nTeléfono móvil: +34 656 51 50 37\nNHC: 9819169\n\nDatos asistenciales.\nMédico: Dra. Mireia Gracia Pascual. NC 612881659. Investigadora Principal en Optometría Clínica. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/12/2018\nEpisodio: 89920251\nCentro de salud: Centro de Salud Ciudad Lineal\n\nInforme clínico del paciente:\nPaciente consumidor de alcohol de 17 años de edad, acompañado de su madre. Se registró una sesión de escaneo retiniano, el código obtenido para revisarla es MD387AER506.","Datos del paciente.\nNombre: Josefa Pacheco Segura\nDNI: 48618113T\nFecha de nacimiento: 04/11/2001\nGenero: F\nDomicilio: Calle de Genova 49\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52070\nEmail: pacheco.segura@protonmail.com\nTelefono fijo: +34 956 96 54 88\nTelefono movil: +34 656 51 50 37\nNHC: 9819169\n\nDatos asistenciales.\nMedico: Dra. Mireia Gracia Pascual. NC 612881659. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 17/12/2018\nEpisodio: 89920251\nCentro de salud: Centro de Salud Ciudad Lineal\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 17 años de edad, acompañado de su madre. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es MD387AER506.","Datos del paciente.\nNombre: XPERSONAX Segura\nDNI: 48618113T\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX XPERSONAX 49\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52070\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 88\nTelefono movil: +34 6XFECHAX 37\nNHC: 9819169\n\nDatos asistenciales.\nMedico: Dra. Mireia XPERSONAX. NC 612881659. Investigadora Principal en Optometria Clinica. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y XPERSONAX, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 89920251\nCentro de salud: Centro de Salud XPERSONAX Lineal\n\nInforme clinico del paciente:\nPaciente consumidor de alcohol de 17 años de edad, acompañado de su madre. Se registro una sesion de escaneo retiniano, el codigo obtenido para revisarla es MD387AER506."
243,"Datos del paciente.\nNombre: Óscar Beltran Trujillo\nDNI: 73543695E\nFecha de nacimiento: 01/12/1941\nGénero: Masculino\nDomicilio: Calle Gran Vía 65\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52135\nEmail: oscar.beltran_trujillo@uca.es\nTeléfono fijo: +34 956 78 51 27\nTeléfono móvil: +34 656 78 40 00\nNHC: 0664225\nNASS: 795699898019\nCondición de riesgo: Conductor de Camión\n\nDatos asistenciales.\nMédico: Dr. Jaume Estevez Vera. NC 801420829. Oftalmólogo Especialista en Retina y Vítreo. Instituto Universitario de Oftalmobiología Aplicada (IOBA). Avenida Ramón y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 25/12/1979\nHospital: Hospital Regional Universitario de Málaga\nMatrícula del coche: 6235QWR\nModelo: Audi A4\nVIN: VSE6YXHQMVL979299\n\nInforme clínico del paciente:\nPaciente de ascendencia asiática occidental de 38 años de edad, acompañado de su tía. Se registró una sesión de huella dactilar, el código obtenido para revisarla es LE324ZQX076.","Datos del paciente.\nNombre: Oscar Beltran Trujillo\nDNI: 73543695E\nFecha de nacimiento: 01/12/1941\nGenero: Masculino\nDomicilio: Calle Gran Via 65\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52135\nEmail: oscar.beltran_trujillo@uca.es\nTelefono fijo: +34 956 78 51 27\nTelefono movil: +34 656 78 40 00\nNHC: 0664225\nNASS: 795699898019\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dr. Jaume Estevez Vera. NC 801420829. Oftalmologo Especialista en Retina y Vitreo. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida Ramon y Cajal, 7. 47011. Valladolid. España.\nFecha de ingreso: 25/12/1979\nHospital: Hospital Regional Universitario de Malaga\nMatricula del coche: 6235QWR\nModelo: Audi A4\nVIN: VSE6YXHQMVL979299\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica occidental de 38 años de edad, acompañado de su tia. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es LE324ZQX076.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 73543695E\nFecha de nacimiento: XFECHAX\nGenero: Masculino\nDomicilio: Calle XDIRECCIONX Via 65\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52135\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 27\nTelefono movil: +34 6XFECHAX 00\nNHC: 0664225\nXPERSONAX: 795699898019\nCondicion de riesgo: Conductor de Camion\n\nDatos asistenciales.\nMedico: Dr. XPERSONAX. NC 801420829. Oftalmologo Especialista en Retina y Vitreo. Instituto Universitario de Oftalmobiologia Aplicada (IOBA). Avenida XDIRECCIONX y XPERSONAX, 7. 47011. Valladolid. XPAISX.\nFecha de ingreso: XFECHAX\nHospital: Hospital Regional Universitario de XPERSONAX\nMatricula del XPERSONAX: 6235QWR\nModelo: XPERSONAX A4\nVIN: VSE6YXHQMVL979299\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica occidental de 38 años de edad, acompañado de su tia. Se registro una sesion de huella dactilar, el codigo obtenido para revisarla es LE324ZQX076."
284,"Datos del paciente.\nNombre: Ricardo Zamora Ortiz\nDNI: 60983530L\nFecha de nacimiento: 09/02/1971\nGénero: Hombre\nDomicilio: Calle de Arenal 95, 7C\nCiudad: Ciudad autónoma de Melilla, Melilla, \nCódigo postal: 51558\nEmail: zamora_ortiz503@yahoo.com\nTeléfono fijo: +34 951 83 21 10\nTeléfono móvil: +34 651 40 79 61\nNHC: 6125325\nCondición de riesgo: Ingeniero de Minas\n\nDatos asistenciales.\nMédico: Dra. Anna Bernal Palacios. NC 511294970. Neuropsicóloga Clínica Investigadora. Instituto de Investigación Biomédica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 16/07/1983\nHospital: Hospital Clínic Barcelona\n\nInforme clínico del paciente:\nPaciente no fumador de 12 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: Ricardo Zamora Ortiz\nDNI: 60983530L\nFecha de nacimiento: 09/02/1971\nGenero: Hombre\nDomicilio: Calle de Arenal 95, 7C\nCiudad: Ciudad autonoma de Melilla, Melilla, \nCodigo postal: 51558\nEmail: zamora_ortiz503@yahoo.com\nTelefono fijo: +34 951 83 21 10\nTelefono movil: +34 651 40 79 61\nNHC: 6125325\nCondicion de riesgo: Ingeniero de Minas\n\nDatos asistenciales.\nMedico: Dra. Anna Bernal Palacios. NC 511294970. Neuropsicologa Clinica Investigadora. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 16/07/1983\nHospital: Hospital Clinic Barcelona\n\nInforme clinico del paciente:\nPaciente no fumador de 12 años de edad, acompañado de su padre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 60983530L\nFecha de nacimiento: XFECHAX\nGenero: Hombre\nDomicilio: Calle XDIRECCIONX Arenal 95, 7C\nXPERSONAX: XPERSONAX autoXEPoFX de Melilla, Melilla, \nCodigo postal: 51558\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 10\nTelefono movil: +34 6XFECHAX 61\nNHC: 6125325\nCondicion de riesgo: Ingeniero de Minas\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 511294970. Neuropsicologa Clinica Investigadora. Instituto de Investigacion Biomedica en Red de Salud Mental (CIBERSAM). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nHospital: Hospital Clinic XPERSONAX\n\nInforme clinico del paciente:\nPaciente no fumador de 12 años de edad, acompañado de su padre."
445,"Datos del paciente.\nNombre: María Ángeles Alarcon Mora\nDNI: 16931452W\nFecha de nacimiento: 07/01/2022\nGénero: F\nDomicilio: Calle del Carmen 92\nCiudad: Ciudad autónoma de Ceuta, Ceuta, \nCódigo postal: 52034\nEmail: mariaangeles@gmail.com\nTeléfono fijo: +34 956 37 80 31\nFAX: +34 956 84 79 42\nNHC: 0968086\nNASS: 477276161848\n\nDatos asistenciales.\nMédico: Dra. Yolanda Suárez Mateos. NC 310874369. Investigadora Clínica en Epidemiología. Instituto de Investigación Biomédica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 27/01/2022\nEpisodio: 54449904\nHospital: Hospital Universitario 12 de Octubre\n\nInforme clínico del paciente:\nPaciente de ascendencia asiática del sudeste de 0 meses de edad, acompañado de su madre.","Datos del paciente.\nNombre: Maria Angeles Alarcon Mora\nDNI: 16931452W\nFecha de nacimiento: 07/01/2022\nGenero: F\nDomicilio: Calle del Carmen 92\nCiudad: Ciudad autonoma de Ceuta, Ceuta, \nCodigo postal: 52034\nEmail: mariaangeles@gmail.com\nTelefono fijo: +34 956 37 80 31\nFAX: +34 956 84 79 42\nNHC: 0968086\nNASS: 477276161848\n\nDatos asistenciales.\nMedico: Dra. Yolanda Suarez Mateos. NC 310874369. Investigadora Clinica en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida Monforte de Lemos 3-5. 28029. Madrid. España.\nFecha de ingreso: 27/01/2022\nEpisodio: 54449904\nHospital: Hospital Universitario 12 de Octubre\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica del sudeste de 0 meses de edad, acompañado de su madre.","Datos del paciente.\nNombre: XPERSONAX\nDNI: 16931452W\nFecha de nacimiento: XFECHAX\nGenero: F\nDomicilio: Calle XDIRECCIONX\nXPERSONAX: XPERSONAX autoXEPoFX de Ceuta, Ceuta, \nCodigo postal: 52034\nEmail: XCORREO_ELECTRONICOX\nTelefono fijo: +34 9XFECHAX 31\nFAX: +34 9XFECHAX 42\nNHC: 0968086\nXPERSONAX: 477276161848\n\nDatos asistenciales.\nMedico: Dra. XPERSONAX. NC 310874369. Investigadora Clinica en Epidemiologia. Instituto de Investigacion Biomedica en Red de Enfermedades Infecciosas (CIBERINFEC). Avenida XDIRECCIONX de XPERSONAX 3-5. 28029. XPERSONAX. XPAISX.\nFecha de ingreso: XFECHAX\nEpisodio: 54449904\nHospital: Hospital Universitario 12 de XFECHAX\n\nInforme clinico del paciente:\nPaciente de ascendencia asiatica del sudeste de 0 meses de edad, acompañado de su madre."


## 5. Devuelve los datos procesados (output)

### Transforma entidades

## 6. Guarda salida

In [139]:
documents.shape
output_filename =  '/home/usuario/Documentos/TrabajoEspecial/Modelos/REGEX/b) SPG/out.csv'
print('Saving to:', output_filename)
documents.to_csv(output_filename, sep=',', header=True, index=False)

Saving to: /home/usuario/Documentos/TrabajoEspecial/Modelos/REGEX/b) SPG/out.csv
