# Examples of anonymized datasets

<a target="_blank" href="https://colab.research.google.com/github/apiwat-chantawibul/anon-workshop/blob/main/notebooks/examples/examples.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

- ขอยกตัวอย่างข้อมูลตั้งต้นชุดเดียว
- แต่แสดงผลลัพธ์ของการทำ anonymization X รูปแบบหลักๆ คือ
  - Publish ในรูปแบบตาราง
  - Publish ในรูปแบบสถิติ
  - เปิด API ให้เรียกถามเป็นครั้งๆไป
- เพื่อให้มีภาพเป้าหมายอยู่ในใจ และเห็นความเป็นไปได้หลายๆแบบก่อน
- จากนั้นเราค่อยมาเรียนรู้ข้อดี, ข้อเสีย, และวิธีการทำ anonymization แต่ละรูปแบบ

## ข้อมูลตั้งต้น

- เป็นข้อมูลจำลอง
- ถูกสร้างมาจาก [generate_mock_source.ipynb](generate_mock_source.ipynb)
- แล้วเก็บไว้เป็น file [source.csv](source.csv)
  - ⚠️ ถ้ารันบน Colab ต้อง download file ก่อน

In [1]:
!curl -OLf https://github.com/apiwat-chantawibul/anon-workshop/raw/refs/heads/main/notebooks/examples/source.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
  0     0    0     0    0     0      0      0 --:--:-- --:--:-- --:--:--     0
100  571k  100  571k    0     0   551k      0  0:00:01  0:00:01 --:--:--  551k


### ลักษณะข้อมูลตั้งต้น

- สมมุติว่าเป็นข้อมูลจำนวนเงินที่สมาชิกในโครงการหนึ่งๆเบิกใช้จ่ายไป และความเห็นของสมาชิกประกอบการใช้จ่ายนั้นๆ
- มี attribute ที่ระบุถึงตัวคนเจ้าของข้อมูลโดยตรง (direct identfier) อยู่สามอย่าง คือ
  - passport
  - first_name
  - last_name
- มี atttribute ที่ระบุตัวตนได้ทางอ้อม (indirect identifier) เพราะมีความเป็นไปได้สูงว่าจะประกฎในชุดข้อมูลอื่น คือ
  - date_of_birth
  - postcode
  - gender
- มี attribute อื่นๆที่ไม่น่าจะพบได้ในแหล่งข้อมูลอื่น เนื่องจากเป็นข้อมูลเฉพาะกับ คือ
  - spending --- คือ จำนวนเงินที่ได้ใช้จ่ายไป
  - comment --- คือ ความเห็นของสมาชิกประกอบการใช้จ่าย

In [2]:
import pandas as pd

original = pd.read_csv(
    'source.csv',
    parse_dates = ['date_of_birth'],
    dtype = {'postcode': str},
)
original

Unnamed: 0,passport,first_name,last_name,job,date_of_birth,comment,postcode,gender,spending
0,694369456,ปัตถพงษ์,ถนัดรบ,ศิลปิน,1963-03-09,กำไรซ่อนโน่นห่วงใยและทั่วชาว ฤดูคนตายหมดคู่ทุ่...,75320,Female,10541
1,229512554,เมษา,ทันยุค,เจ้าหน้าที่รัฐบาล,1998-01-30,น้ำเย็นกำเทเลแกรมฝาก ตะปูตีนอุปโภคโดยหยอกครูขี...,21410,Male,13130
2,U96857223,พัชรพร,ตระกูลบุญ,ผู้จัดพิมพ์,2021-12-31,ดูฝากร่มรื่นถางหน้ากาก คำสั่งรากแต่แม่พยาธิ \n...,75320,Male,11953
3,H26958060,ประจิน,ทวีเดช,นักสังคมศาสตร์,1943-01-20,สีแข็งอัศจรรย์มิตรรสชาติดึกหมัด \nดีแพ้คำถามสถ...,95840,Female,12285
4,144271331,กิติวัฒน์,บุญญาไลย์,ศิลปิน,1960-11-25,กิ่งไม้ไข่พับกว้าง ยาเขยื้อนสำหรับแกสดชื่นโรงส...,95840,Male,10399
...,...,...,...,...,...,...,...,...,...
995,D76609557,โกมล,ดำริห์ชอบ,นักการศึกษา,2020-06-05,เย็นขนมตรวจเลี้ยวองค์น้าแรก เศษอินสตาแกรมกู ทำ...,95840,Female,8251
996,R93321926,นิมุ,นักสำหรวจ,บรรณารักษ์,1913-01-31,พิพักพิพ่วนสหภาพนักเรียนความกิ่งไม้ ขุดแรกโก๋แ...,88530,Male,12172
997,134186584,สุพัตร,เนื้อนุ่ม,นักสังคมสงเคราะห์,2021-10-26,วิ่งสุดท้ายหนุนข้างแพ้รอปู คบมะเขือเทศพับถางลู...,57110,Female,9902
998,T25822912,จินต์จุฑา,ธรรมนิยม,นักสังคมสงเคราะห์,1973-10-12,บันไดขันน้ำผ่อวิชาชีพผลิตขี้ดินขาดเคิ่งย่อ ตอก...,57110,Female,10554


## Publish ในรูปแบบตาราง

- จะเห็นว่าข้อมูลถูกดังกล่าวถูกปรับหลายประการ ทำให้ไม่สามารถแยกแยะเจ้าของ comment ได้ชัดเจน
  - ตัวอย่างเช่น ถึงแม้จะมีผู้ได้รายชื่อของ "นักสังคมสงเคราะห์หญิงอายุ 40 ปีที่เข้าร่วมโครงนี้" จากแหล่งอื่นมา ก็จะยังไม่สามารถฝันธงได้ว่าใครเป็นคน comment เรื่อง "ประชาธิปไตยอาหาร" กันแน่
  - plausible deniability is useful
  - แต่ก็ต้องแลกมาด้วยความแม่นยำข้อมูลที่ลดลง
- เทคนิค anonymization ที่ใช้ ได้แก่
  - de-identification
  - บอกกลุ่มอายุแทนวันเกิดตรงๆ (bucketing)
  - mask เลข postcode บางส่วน (masking)
  - ปัดเศษตัวเลขการใช้จ่ายให้เป็นจำนวนเต็มพันที่ใกล้ที่สุด (rounding)
  - ตัดรายการที่มีข้อมูลโดดเด่นไม่เข้าพวกออก (record suppression) จาก 1000 เหลือเพียง 125 รายการที่เปิดเผยได้
- วัดระดับความปลอดภัยโดย K-anonimity, L-diversity, และ T-closeness ได้

In [3]:
# remove direct identifiers, replacing it with 
table = original.drop(columns = ['passport', 'first_name', 'last_name'])

# convert to age group
from datetime import datetime
import numpy as np
table['age'] = datetime.now().year - table['date_of_birth'].dt.year
table['age'] = pd.cut(
    table['age'],
    bins = [0, 10, 20, 30, 40, 50, 60, np.inf],
    right = False,
)
table = table.drop(columns = 'date_of_birth')

# Round spending to nearest 1000
table['spending'] = table['spending'].round(-3)

# Mask lower postcode digits
table['postcode'] = table['postcode'].str[:-3] + 'xxx'

# Sort into groups by indirect identifiers
table = table.set_index(['gender', 'age', 'postcode', 'job']).sort_index()

# NOTE: See Proportion of records in each group first should aid decision:
#     table.index.value_counts().plot.hist()

# Suppress records belonging to small groups
table = table[(table.index.value_counts() >= 3)]

with pd.option_context('display.max_rows', None):
    display(table)

  table = table[(table.index.value_counts() >= 3)]
  table = table[(table.index.value_counts() >= 3)]


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,comment,spending
gender,age,postcode,job,Unnamed: 4_level_1,Unnamed: 5_level_1
Female,"[40.0, 50.0)",75xxx,นักสังคมสงเคราะห์,ย้ำรอทอดมันประสบการณ์อิฐเรียงของหวาน หล่นโรงสี...,12000
Female,"[40.0, 50.0)",75xxx,นักสังคมสงเคราะห์,ประชาธิปไตยอาหารชะนีนักเรียนธาตุแคะ ทวิตเตอร์พ...,11000
Female,"[40.0, 50.0)",75xxx,นักสังคมสงเคราะห์,เป็นตู้หึงสา ถีบถึงเคเอฟซีหมอกเนื่องจากแม้ \nค...,10000
Female,"[60.0, inf)",21xxx,นักประวัติศาสตร์,ตั้งแต่ย่อกิจกรรมวิชาชีพบูชา สำนักงานแคะการเผื...,10000
Female,"[60.0, inf)",21xxx,นักประวัติศาสตร์,ห่วงใยตรวจคนตายริม ร้อนแท็กซี่เอสซีบีบันไดแหย่...,11000
Female,"[60.0, inf)",21xxx,นักประวัติศาสตร์,หาม้ายเอิดทุกข์ ชุดนอนที่ดินหรือหม้อเชื่อมิตร ...,8000
Female,"[60.0, inf)",22xxx,นักสังคมสงเคราะห์,ควรหาม้ายริมประชาธิปไตย แกเอสซีบีผลัด ยึดแมลงก...,11000
Female,"[60.0, inf)",22xxx,นักสังคมสงเคราะห์,อายุผลิตประชาธิปไตยคนตาย หรือเป็นแม้อ่อนหวานเช...,11000
Female,"[60.0, inf)",22xxx,นักสังคมสงเคราะห์,ดังนี้ระยำสหภาพแตะผิดทุ่มบริโภค ศิษย์โรงสีซอยบ...,8000
Female,"[60.0, inf)",22xxx,นักแสดง,รถทัวร์ขันน้ำปิ่นโตดู ขัดลูกดาวเทียมนั่ง ตกลงต...,12000


## Publish ในรูปแบบสถิติ

เช่น ให้ค่า summary statistics ตามการจัดกลุ่มแบบต่างๆ ดังนี้

In [4]:
stat = original.copy()
stat['age'] = datetime.now().year - stat['date_of_birth'].dt.year

In [5]:
stat[['gender', 'age', 'spending']].groupby('gender').describe()

Unnamed: 0_level_0,age,age,age,age,age,age,age,age,spending,spending,spending,spending,spending,spending,spending,spending
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
gender,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Female,486.0,54.286008,33.072593,0.0,26.0,52.0,84.0,116.0,486.0,9979.236626,1038.266537,7373.0,9304.25,10012.5,10630.0,12914.0
Male,514.0,57.476654,32.663033,0.0,29.0,58.0,86.0,116.0,514.0,11976.114786,1008.753441,8388.0,11357.5,12005.5,12605.25,14946.0


In [6]:
stat[['postcode', 'age', 'spending']].groupby('postcode').describe()

Unnamed: 0_level_0,age,age,age,age,age,age,age,age,spending,spending,spending,spending,spending,spending,spending,spending
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
postcode,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
21410,91.0,52.934066,34.682625,0.0,25.0,45.0,86.0,115.0,91.0,10807.252747,1390.366519,7651.0,9681.0,10943.0,11889.0,13594.0
22730,108.0,60.703704,33.439654,2.0,33.5,60.0,89.75,116.0,108.0,11007.638889,1498.449338,7920.0,10063.5,11032.5,12076.0,14911.0
41560,99.0,52.767677,33.186802,2.0,24.0,46.0,83.5,115.0,99.0,11201.585859,1452.42482,7981.0,10254.0,11399.0,12169.0,14381.0
57110,114.0,56.184211,32.457615,0.0,24.25,55.5,84.75,115.0,114.0,11070.578947,1391.809403,7907.0,10167.75,10881.5,12145.5,14266.0
66330,95.0,56.947368,33.347101,2.0,26.0,58.0,87.0,115.0,95.0,10974.136842,1442.140472,7570.0,9963.5,11043.0,12084.0,14033.0
75200,99.0,57.050505,32.972275,1.0,27.5,59.0,84.5,115.0,99.0,11262.878788,1411.795197,8216.0,10144.5,11466.0,12481.0,13762.0
75320,101.0,56.762376,35.520458,0.0,27.0,58.0,87.0,116.0,101.0,10734.029703,1232.670162,7835.0,9794.0,10760.0,11640.0,13712.0
88530,98.0,58.673469,30.915173,1.0,32.0,57.0,83.75,115.0,98.0,11122.010204,1508.917817,7373.0,10052.25,11244.5,12167.25,14946.0
95840,112.0,51.660714,31.152214,1.0,25.75,49.5,77.25,114.0,112.0,11008.991071,1521.419273,7681.0,9880.25,10811.0,12291.25,14309.0
98860,83.0,55.385542,31.314623,1.0,27.0,51.0,79.5,110.0,83.0,10815.361446,1371.433891,7618.0,9891.5,10971.0,11834.0,13470.0


In [7]:
stat[['job', 'spending']].groupby('job').describe()

Unnamed: 0_level_0,spending,spending,spending,spending,spending,spending,spending,spending
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
job,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
คนขับรถแท็กซี่,39.0,11005.74359,1459.23505,7907.0,9944.0,11042.0,12086.0,13804.0
จ๊อกกี้,31.0,11109.419355,1353.431682,7977.0,10185.5,11472.0,12069.0,13454.0
ช่างทำผม,43.0,11193.372093,1502.571241,7923.0,9994.5,11218.0,12341.0,14911.0
ตำรวจ,43.0,10694.651163,1348.288613,8512.0,9727.0,10519.0,11612.0,13736.0
นักการกุศล,35.0,10910.542857,1520.707698,7758.0,9983.5,10910.0,11949.0,13207.0
นักการทูต,37.0,10619.594595,1625.218164,7934.0,9360.0,10440.0,11905.0,13498.0
นักการศึกษา,34.0,11197.882353,1336.344693,8251.0,10533.75,11193.0,11876.0,13712.0
นักคณิตศาสตร์,25.0,10835.8,1374.248401,8196.0,9935.0,10542.0,11939.0,13993.0
นักดาราศาสตร์,29.0,11331.896552,1612.909491,7373.0,10350.0,11372.0,12600.0,14381.0
นักประวัติศาสตร์,31.0,10845.935484,1493.878441,7651.0,9923.5,10534.0,11903.5,13500.0


### บรรยายแค่สถิติ ก็ยังระบุตัวตนได้

- เพราะถ้ามีจำนวนวิธีการจัดกลุ่มเพื่อหาสถิติมากพอ ก็สามารถที่จะตั้งตัวแปรเป็นค่าข้อมูลของแต่ละคน แล้วใช้สถิติที่ได้บรรยายเงื่อนไขสมการณ์หลายตัวแปร แก้ดึงตัวแปรกลับมาได้
- [Database Reconstruction Attack](https://dl.acm.org/doi/pdf/10.1145/3287287)
- Garfinkel, Simson, John M. Abowd, and Christian Martindale. "Understanding database reconstruction attacks on public data." Communications of the ACM 62.3 (2019): 46-53.

ถ้าข้อมูลดังกล่าวมีการ สถิติมีการบรรยายหลาย

## เปิด API ให้เรียกถามเป็นครั้งๆไป

- ใส่ noise ก่อนจะตอบได้
- วัดระดับความนิรนามด้วย Differential Privacy (ถ้าข้อมูลเป็นตัวเลขทั้งหมด)
- ต้องตั้ง privacy budget ไว้ ซึ่งจะถูกลดทอนไปเรื่อยๆเมื่อข้อมูลถูก export
- เมื่อ privacy budget หมด ต้องหยุดให้บริการ
  - เพราะมีการบอกข้อมูลกับโลกภายนอกมากเกินไปแล้ว
  - ถึงจะไม่ได้บอกค่าตรงๆ แต่ถ้าบอกเป็นจำนวนครั้งมากพอก็นำมารวมสถิคิได้
- ควบคุมจำนวนครั้งการให้บริการได้

### Differential Privacy

![](https://upload.wikimedia.org/wikipedia/commons/d/db/Differential_privacy_informal_definition.png)

![](https://upload.wikimedia.org/wikipedia/commons/3/3a/Differential_privacy_formal_definition.png)

#### Benefits of Differential Privacy

Differential privacy has several important advantages over previous privacy techniques:

- It **assumes all information is identifying information**, eliminating the challenging (and sometimes impossible) task of accounting for all identifying elements of the data.
- It is **resistant to privacy attacks based on auxiliary information**, so it can effectively prevent the linking attacks that are possible on de-identified data.
- It is **compositional** — we can determine the privacy loss of running two differentially private analyses on the same data by simply adding up the individual privacy losses for the two analyses. Compositionality means that we can make meaningful guarantees about privacy even when releasing multiple analysis results from the same data.  Techniques like de-identification are not compositional, and multiple releases under these techniques can result in a catastrophic loss of privacy.

https://www.nist.gov/blogs/cybersecurity-insights/differential-privacy-privacy-preserving-data-analysis-introduction-our?utm_source=chatgpt.com