<a href="https://colab.research.google.com/github/roque-alfaro/taller-eiv-2026/blob/main/0_Ejemplos_Anonimizaci%C3%B3n_Programacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Examinemos dos ejemplos de datos para la programaci√≥n y apliquemos las orientaciones de la **[Norma t√©cnica de anonimizaci√≥n para la publicaci√≥n bases de datos como datos abiertos](https://repositoriodeis.minsal.cl/ContenidoSitioWeb2020/EstandaresNormativa/Norma%20t%C3%A9cnica%20241%20de%20anonimizaci%C3%B3n%20datos%20abiertos.pdf)**  del Departamento de Estad√≠sticas e Informaci√≥n de Salud (2025).


# Ejemplo 1: Fichas de Programaci√≥n üìÖ

En este script extraemos la programaci√≥n de un conjunto de profesionales de un servicio cl√≠nico y guardamos los datos originales, seudoanonimizados y anonimizados



> ***Anonimizaci√≥n**: Procedimiento en virtud del cual un dato personal no puede
vincularse o asociarse a una persona determinada, ni permitir su  identificaci√≥n, por haberse destruido o eliminado el nexo con la informaci√≥n que vincula, asocia o identifica a esa persona. Un dato anonimizado deja de ser un dato personal.*

> ***Seudoanonimizaci√≥n**: es el tratamiento de datos personales de manera tal que ya no puede atribuirse a un titular sin utilizar informaci√≥n adicional, siempre que dicha informaci√≥n adicional figure por separado y est√© sujeta a medidas t√©cnicas y organizativas destinadas a garantizar que los datos personales no se atribuyan a una persona f√≠sica identificada o identificable. Este proceso es reversible, en cuanto que,al juntar informaci√≥n adicional con los datos personales seudoanonimizados, se podr√° volver a atribuir ese dato a una persona identificada o identificable. Este proceso se denomina reidentificaci√≥n.*

In [1]:
#@title Descargar Planilla

import pandas as pd
import openpyxl as xl
import requests
import os

# Localizaci√≥n de los datos
path_fichas="https://raw.githubusercontent.com/rlagosb/taller_eiv/main/data/programacion/Fichas/"
planilla_fichas = 'Fichas Unidad Endoscopia.xlsx'

# Descargar el archivo
response = requests.get(path_fichas + planilla_fichas)
with open(planilla_fichas, 'wb') as f:
    f.write(response.content)

# Cargar planilla
wb = xl.load_workbook(filename = planilla_fichas, data_only=True)

print(f'Planilla {planilla_fichas} descargada ‚úÖ')

Planilla Fichas Unidad Endoscopia.xlsx descargada ‚úÖ


  warn(msg)


In [2]:
#@title Obtener fichas

# Cargar datos de las fichas en las hojas de la planilla
fichas = {}
print('Cargando fichas:')

for ws_name in [name for name in wb.sheetnames if name not in ['Personal', 'Prestaciones', 'Ficha Programaci√≥n']]:

  #Cargar hoja
  ws=wb[ws_name]

  #obtener datos profesional y eliminar cabecera
  profesional={'rut':ws['C4'].value,'nombre':ws['C3'].value,'profesion':ws['C5'].value,'obs_ficha':ws['F5'].value}
  ws.delete_rows(1,9)
  ws.delete_cols(1,1)

  #obtener actividades y horarios
  prog = (pd.DataFrame(ws.values).rename(columns={0:"ini",1:"fin"}).
          melt(id_vars=['ini','fin'], var_name='dia', value_name='act').
          # eliminar bloques sin actividades programadas
          dropna(subset=['act']))
  prog['dia']=prog['dia']-1

  #agregar datos profesional
  for col in ['rut','nombre','profesion','obs_ficha']:
    prog[col]=profesional[col]

  #agrupar bloques de actividades
  prog['id_prog']=((prog.rut!=prog.rut.shift()) |             # agrupar por cambio de rut
                    (prog.dia!=prog.dia.shift()) |            # por cambio de dia
                    (prog.act!=prog.act.shift())              # por cambio de actividad
                    ).cumsum()                                # asignar correlativo
  fichas[ws_name]=prog.groupby(['id_prog','rut','nombre','profesion','dia','act','obs_ficha'],as_index=False, dropna=False).aggregate({'ini':'min','fin':'max'})

  print(ws.title, '‚úî')

Cargando fichas:
OF ‚úî
JH ‚úî
VR ‚úî
EG ‚úî
VJ ‚úî
JG ‚úî
MG ‚úî
LR ‚úî
DR ‚úî


In [3]:
#@title Tabular datos

#Consolidar  fichas en una tabla
programacion=pd.concat(fichas, ignore_index=True)

# Calcular duraci√≥n actividades
programacion['hrs_prog']=(pd.to_datetime(programacion['fin'].astype(str), format='%H:%M:%S') -
                     pd.to_datetime(programacion['ini'].astype(str), format='%H:%M:%S')).dt.total_seconds() / 3600

programacion

Unnamed: 0,id_prog,rut,nombre,profesion,dia,act,obs_ficha,ini,fin,hrs_prog
0,1,123456,Orlando Flores,M√©dico(a) Cirujano(a),1,[GA] Consulta nueva,Comisi√≥n de Servicio,08:00:00,10:00:00,2.0
1,2,123456,Orlando Flores,M√©dico(a) Cirujano(a),1,[GA] Otras Actividades Cl√≠nicas,Comisi√≥n de Servicio,10:00:00,14:00:00,4.0
2,3,123456,Orlando Flores,M√©dico(a) Cirujano(a),1,[GA] Colonoscop√≠a,Comisi√≥n de Servicio,14:00:00,15:00:00,1.0
3,4,123456,Orlando Flores,M√©dico(a) Cirujano(a),1,[GA] Endoscop√≠a digestiva,Comisi√≥n de Servicio,15:00:00,16:00:00,1.0
4,5,123456,Orlando Flores,M√©dico(a) Cirujano(a),2,[GA] Otras Actividades Cl√≠nicas,Comisi√≥n de Servicio,08:00:00,09:00:00,1.0
...,...,...,...,...,...,...,...,...,...,...
128,12,369874,Daniela Ruiz,M√©dico(a) Cirujano(a),5,[GA] Comit√© Cl√≠nico,Encargada Unidad,08:30:00,10:30:00,2.0
129,13,369874,Daniela Ruiz,M√©dico(a) Cirujano(a),5,[GA] Otras Actividades Cl√≠nicas,Encargada Unidad,10:30:00,13:00:00,2.5
130,14,369874,Daniela Ruiz,M√©dico(a) Cirujano(a),5,Colaci√≥n,Encargada Unidad,13:00:00,13:30:00,0.5
131,15,369874,Daniela Ruiz,M√©dico(a) Cirujano(a),5,[GA] Otras Actividades Cl√≠nicas,Encargada Unidad,13:30:00,14:00:00,0.5


üî¥ ¬øCu√°les campos son identificadores expl√≠citos? ¬øCuasi-identificadores?

> ‚Ä¢ ***Identificadores expl√≠citos**. Son datos que permiten identificar de forma inequ√≠voca a una persona como el nombre, n√∫mero de identificaci√≥n nacional, [...] n√∫mero de tel√©fono m√≥vil.*

> ‚Ä¢ ***Cuasi-identificadores**. Son datos que no permiten una identificaci√≥n directa del individuo, pero que en conjunto con otros datos pueden llegar a se√±alar a la persona como sexo, g√©nero, fecha de nacimiento, edad, ocupaci√≥n, estado civil, nacionalidad, lugar de atenci√≥n, comuna, regi√≥n, previsi√≥n, fecha de egreso, entre otros.*

> ‚Ä¢ ***Atributos sensibles**: Son datos que revelan caracter√≠sticas f√≠sicas o morales y que pueden comprometer la privacidad de los individuos como los diagn√≥sticos, procedimientos cl√≠nicos, estado de vacunaci√≥n, entre otros.*

In [4]:
#@title Des-identificaci√≥n
# Cremos un identificador alternativo

profesionales = programacion[['rut']].drop_duplicates(ignore_index=True).reset_index().rename(columns={'index':'idProfesional'})
profesionales['idProfesional'] +=1
print('Identificadores de Profesionales\n', profesionales)

# Agregamos el pseudoidentificador y eliminamos los datos personales

programacion_desidentificada = programacion.merge(profesionales, on='rut', how='left').drop(columns=['rut','nombre','profesion'])
programacion_desidentificada

Identificadores de Profesionales
    idProfesional     rut
0              1  123456
1              2  678910
2              3  321654
3              4  987321
4              5  951843
5              6  357681
6              7  852963
7              8  147258
8              9  369874


Unnamed: 0,id_prog,dia,act,obs_ficha,ini,fin,hrs_prog,idProfesional
0,1,1,[GA] Consulta nueva,Comisi√≥n de Servicio,08:00:00,10:00:00,2.0,1
1,2,1,[GA] Otras Actividades Cl√≠nicas,Comisi√≥n de Servicio,10:00:00,14:00:00,4.0,1
2,3,1,[GA] Colonoscop√≠a,Comisi√≥n de Servicio,14:00:00,15:00:00,1.0,1
3,4,1,[GA] Endoscop√≠a digestiva,Comisi√≥n de Servicio,15:00:00,16:00:00,1.0,1
4,5,2,[GA] Otras Actividades Cl√≠nicas,Comisi√≥n de Servicio,08:00:00,09:00:00,1.0,1
...,...,...,...,...,...,...,...,...
128,12,5,[GA] Comit√© Cl√≠nico,Encargada Unidad,08:30:00,10:30:00,2.0,9
129,13,5,[GA] Otras Actividades Cl√≠nicas,Encargada Unidad,10:30:00,13:00:00,2.5,9
130,14,5,Colaci√≥n,Encargada Unidad,13:00:00,13:30:00,0.5,9
131,15,5,[GA] Otras Actividades Cl√≠nicas,Encargada Unidad,13:30:00,14:00:00,0.5,9


In [None]:
# @title Anonimizaci√≥n
# Eliminamos los campos identificadores y pseudoidentificadores, dejando s√≥los los campos indispensables

programacion_anonimizada = programacion.groupby(['profesion','act'], dropna=False).hrs_prog.sum().reset_index()
programacion_anonimizada

> üü° *Muchas veces se confunde la desidentificaci√≥n con la anonimizaci√≥n,
pero la desidentificaci√≥n es s√≥lo una t√©cnica de un conjunto de procedimientos a aplicar a la base de datos y, aplicada por si sola, genera un conjunto de datos que puede ser identificable al combinarlos con otros datos de acceso p√∫blico. Este proceso se denomina *reidentificaci√≥n* y es lo que se busca
evitar con la anonimizaci√≥n.*

> üî¥ *Si la base de datos contiene variables registradas en texto libre pueden existir identificadores expl√≠citos contenidos en estos campos que no hayan sido reconocidos. Esta posibilidad aumenta cuando el volumen de informaci√≥n es masivo, por lo que estas variables tambi√©n deben eliminarse previo al proceso de publicaci√≥n como datos abiertos, mientras no se pueda asegurar la anonimizaci√≥n del campo.*

In [5]:
#@title Exportar

# Carpeta de destino
datos_crudos = '/content/datos_crudos/'
if not os.path.exists(datos_crudos): os.makedirs(datos_crudos)

# Crear un ExcelWriter para exportar a m√∫ltiples hojas
with pd.ExcelWriter(datos_crudos + "Programacion.xlsx") as writer:
    programacion.to_excel(writer, sheet_name="PM", index=False)
    programacion_desidentificada.to_excel(writer, sheet_name="PM_Pseudoanonimizada", index=False)
    programacion_anonimizada.to_excel(writer, sheet_name="PM_Anonimizada", index=False)

print(f"Dataframes exportados a {datos_crudos}Programacion.xlsx ‚úÖ")

NameError: name 'programacion_anonimizada' is not defined

# Ejemplo 2: Lista de espera de consultas
Examinemos el nivel de anonimizaci√≥n de una base de datos de interconsultas no GES en lista de espera obtenidas a mediante la Ley de Transparencia.

In [6]:
# @title Cargar planilla

# concatenamos para definir la direcci√≥n excel_url, la cual almacena la direcci√≥n del archivo a analizar.
datos_originales = 'https://raw.githubusercontent.com/rlagosb/taller_eiv/main/data/'
excel_url = datos_originales + 'SS_MSOr_Respuesta%20Solicitud%20Folio%20AO012T0001655%20(CNE%202021).xlsx'

# importamos desde esa url las hojas del excel LE ABIERTA y CNE EGRESOS
sic_df={}
for hoja in ['LE ABIERTA ','CNE EGRESOS']:
  sic_df[hoja]=pd.read_excel(excel_url, sheet_name=hoja)
  print(f'Hoja {hoja}: {sic_df[hoja].shape[0]} registros')


# Crear tabla √∫nica
sic = pd.concat(sic_df.values())

print(sic.info())
sic

Hoja LE ABIERTA : 2499 registros
Hoja CNE EGRESOS: 149479 registros
<class 'pandas.core.frame.DataFrame'>
Index: 151978 entries, 0 to 149478
Data columns (total 8 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   FECHA_NAC   151978 non-null  object        
 1   SEXO        151978 non-null  int64         
 2   TIPO_PREST  151978 non-null  int64         
 3   PRESTA_MIN  151978 non-null  object        
 4   PRESTA_EST  151978 non-null  object        
 5   F_ENTRADA   151978 non-null  datetime64[ns]
 6   ESTAB_ORIG  151978 non-null  int64         
 7   ESTAB_DEST  151978 non-null  int64         
dtypes: datetime64[ns](1), int64(4), object(3)
memory usage: 10.4+ MB
None


Unnamed: 0,FECHA_NAC,SEXO,TIPO_PREST,PRESTA_MIN,PRESTA_EST,F_ENTRADA,ESTAB_ORIG,ESTAB_DEST
0,2010-11-22 00:00:00,2,1,07-064,NUTRIOLOGO PEDIATRICO,2021-01-04,114101,114101
1,1987-12-17 00:00:00,2,1,07-056,CIRUGIA ABDOMINAL,2021-01-04,114312,114101
2,1988-09-07 00:00:00,2,1,07-058,GINECOLOGIA ADULTO,2021-01-04,114101,114101
3,1964-07-14 00:00:00,2,1,09-008,ORTODONCIA,2021-01-04,114101,114101
4,2017-05-18 00:00:00,1,1,09-008,Ortodoncia,2021-01-04,114304,114105
...,...,...,...,...,...,...,...,...
149474,27260,2,1,07-030,MEDICINA INTERNA,2021-11-25,114322,114101
149475,43382,1,1,07-049,Psiquiatria,2021-06-17,114105,114105
149476,35875,1,1,07-046,Otorrinolaringolog√≠a,2021-05-12,114303,114331
149477,26707,1,1,07-046,Otorrinolaringolog√≠a,2021-12-28,114302,114331


üî¥ Esta base no tiene identificadores expl√≠citos pero tiene cuasi-identificadores. No debiera existir una combinaci√≥n √∫nica de cuasi-identificadores entre todas las filas de la base de datos.

In [None]:
sic['EDAD'] = (sic['F_ENTRADA'] - pd.to_datetime(sic['FECHA_NAC'])).dt.days // 365
sic[['EDAD','SEXO']].value_counts(dropna=False)

Para obtener una K-anonimidad mayor a 2 podemos hacer una generalizaci√≥n de la variable edad por rangos etarios.

>üü¢ ***Generalizaci√≥n**: El objetivo de este procedimiento es obtener una k-anonimidad mayor a 1, donde el valor K corresponde a cuantas veces es lo m√≠nimo que est√° repetido una tupla de cuasi-identificadores en el conjunto de datos. Para lograr esto se limita la precisi√≥n de los datos a trav√©s del establecimiento de una jerarqu√≠a en la que ciertos atributos del mismo grupo comparten valores.*

In [None]:
# La funci√≥n cut genera rangos de 10 a√±os para valores entre 0 y 100
# ¬øCambia la k-anonimidad con rangos de 5 y 10 a√±os?

sic['GRUPO_EDAD'] = pd.cut(sic['EDAD'], bins=range(0, 101, 10), right=False)
sic[['GRUPO_EDAD','SEXO']].value_counts(dropna=False)

Otra opci√≥n es enmascarar las variables para lograr una K-anonimidad mayor a 2. Enmascaremos la variable Sexo con el valor 99 = desconocido en los casos con k-anonimidad=1

> üü¢***Ofuscamiento o enmascaramiento**: Corresponde a la modificaci√≥n de los valores en un conjunto de datos. Estos valores pueden ser suprimidos o cambiados por informaci√≥n similar.*

In [None]:
sic.loc[(sic.EDAD.between(60, 70, inclusive='left') & (sic.SEXO==3)), 'SEXO'] = 99
sic.loc[((sic.EDAD>=90) & (sic.SEXO==1)), 'SEXO'] = 99

sic[['GRUPO_EDAD','SEXO']].value_counts(dropna=False)

In [None]:
# Eliminando la edad quedamos un conjunto de datos k-anonimizados (k=2)
sic_anonimizado = sic.drop(columns=['EDAD', 'FECHA_NAC'])
sic_anonimizado

> *Una vez obtenida una K-anonimidad igual o mayor a 2, se debe evaluar la L- diversidad que corresponde al n√∫mero de valores distintos de los atributos sensibles que existen en una misma tupla √∫nica de cuasi-identificadores. Esto se debe a que si una tupla repetida K veces tiene el mismo atributo
sensible se puede identificar en la base de datos. Al igual que en la K-anonimidad, el valor de la L diversidad debe ser mayor a 1.*

## Exposici√≥n de datos sensibles
Consideremos que `PRESTA_MIN` es proxy del diagn√≥stico del paciente y, por lo tanto, es un atributo sensible (*aquellos datos personales que se refieren a las caracter√≠sticas f√≠sicas o morales de las personas o a hechos o circunstancias de su vida privada o intimidad*)



In [None]:
# Examinemos si los grupos de cuasi-identificadores tienen l-diversidad > 1

l_diversity_grupos = sic_anonimizado.groupby(['GRUPO_EDAD', 'SEXO'], observed=True)['PRESTA_MIN'].nunique().reset_index().rename(columns={'PRESTA_MIN': 'L_Diversidad'})

print("L-Diversity por grupo:\n", l_diversity_grupos)

if (l_diversity_grupos['L_Diversidad'] < 2).any():
    print("Grupos sin L-diversidad ‚â• 2:\n", l_diversity_grupos[l_diversity_grupos['L_Diversidad'] < 2])

## Resumen

*   Los cuasi-identificadores del dataframe `sic` son `FECHA_NAC` y `SEXO` y el dato sensible identificado es `PRESTA_MIN`.
*   Calculamos la L-diversidad (n√∫mero de valores posibles del dato sensible) para cada grupo formado por los cuasi-identificadores.
*   S√≥lo dos grupos no alcanzaron L-diversidad 2 (casos con sexo desconocido). No obstante, los grupos con mismo rango etario y sexo conocido si ten√≠an L-diversidad>1.
*   La base `sic_anonimizada` alcanza L-diversidad=4, ya que todos los grupos de cuasi-identificadores tienen al menos cuatro posibles valores del atributo sensible.

## Conclusiones
*   La anonimizaci√≥n utilizando generalizaci√≥n (`GRUPO_EDAD`) y enmascaramiento (`SEXO`) protege contra  la reidentificaci√≥n y contra la exposici√≥n de datos sensibles.
* El procedimiento anteriormente realizado se denomina anonimizaci√≥n utilizando la t√©cnica de *k-anonimidad* y *l-diversidad*.
* Existe una reducci√≥n de la informaci√≥n de la base de datos anonimizada debido a que, al transformar o enmascarar las _variables, se reduce el detalle de la informaci√≥n afectando los an√°lisis que se realicen.