Skip to content

DataGuard网站数据匿名、隐私保护模型开源代码

License

Notifications You must be signed in to change notification settings

wuyucheng2002/DataGuard

Repository files navigation

“DataGuard”安全数据发布平台

平台介绍

“DataGuard”数据安全发布平台搭载了传统的数据匿名算法和新兴的基于人工智能技术的隐私保护模型,用户遵循简单操作即可实现对数据的匿名化和隐私化处理,同时得到详尽的数据效用和风险评估报告。网页链接:http://101.132.17.93/

环境依赖

pandas == 1.5.2

numpy == 1.23.5

reportlab == 3.6.12

matplotlib == 3.6.2

参数说明

参数名 格式 默认值 说明
upload str 'table/' 原始数据文件存放的文件夹
download str 'table/' 匿名后数据文件和评估报告存放的文件夹
file1 str '医保_个人基本信息.xlsx' 第一个原始数据文件文件名
file2 str None 第二个原始数据文件文件名,可不填
method str 'K' 可在'K'、'L'、'T'中选择,分别对应K-匿名性、L-多样性、T-相近性三种匿名算法
ks str '0' 不同算法的k值,若有多个,用','分割,如不填,则从2遍历至20,并推荐最优的k值
ls str '0' L-多样性算法的l值,若有多个,用','分割,如不填,则从0遍历至3,并推荐最优的l值
ts str '0.0' T-相近性算法的t值,若有多个,用','分割,如不填,则从0遍历至0.8(间隔0.2),并推荐最优的t值
target str 'aka129' 隐私属性的属性名
qid str 'aab001,ake010,akc087,aab020' 准标识符属性名,若有多个,用','分割
type str 'yb' 数据集的类型,在'yb'和'yl'中选择,分别代表医保数据集和医疗数据集

运行示例

python main.py --upload='tabel1/' --download='tabel2/' --file1='医保_个人基本信息.xlsx' --file2='医保_医保医疗费用结算信息.xlsx' --method='K' --ks= '5,6,7' --target='aka129' --qid='aab001,ake010,akc087,aab020' --type='yb'

运行结果:在'tabel2/'文件夹中得到如下文件

  • 报告.pdf:数据集分析和效用风险评估报告
  • anonymized_5_0_0.0.xlsx:设置k=5运用K-匿名性算法后的文件
  • anonymized_6_0_0.0.xlsx:设置k=6运用K-匿名性算法后的文件
  • anonymized_7_0_0.0.xlsx:设置k=7运用K-匿名性算法后的文件

参考代码

About

DataGuard网站数据匿名、隐私保护模型开源代码

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published