In [54]:
from pyaaas.aaas import AaaS
from pyaaas.models.privacy_models import KAnonymity
from pyaaas.attribute_type import AttributeType
import pandas as pd

In [55]:
aaas = AaaS("http://35.228.153.53:8080/") # connecting to online service

In [56]:
data_df = pd.read_csv("../data/dummy-dataset-260219.csv", sep=";")

In [57]:
data_df


Unnamed: 0,Dummy_tag,ID,Navn,Alder,Sivilstatus,Barn,Innsatsgruppe,Innvandrerbakgrunn,Ledighetsstatus,Utdanning,Ytelse,Medisinsk forhold
0,dummy_data,PY827,Eirik,47,Ukjent,1,Situasjonsbestemt innsats,Togo,Delvis ledig,Høyere utd inntil 4 år,Tiltakspenger,Ingen
1,dummy_data,CX244,Ella,30,Gift,2,Varig tilpasset,Surinam,Ordinær tiltaksdeltaker,Grunnskole,Dagpenger,Ingen
2,dummy_data,ZE697,Solveig,37,Ukjent,1,Standard innsats,Malta,Delvis ledig,Grunnskole,Dagpenger,Ingen
3,dummy_data,AR215,Eirik,52,Ugift,1,Standard innsats,Norge,Andre arbeidssøkende,Høyere utd inntil 4 år,Uføretrygd,Ingen
4,dummy_data,CZ546,Heidi,37,Ukjent,3,Spesielt tilpasset,Surinam,Andre arbeidssøkende,Høyere utd over 4 år,Dagpenger,Ingen
5,dummy_data,XF859,Nora,30,Gift,2,Spesielt tilpasset,Malta,Andre arbeidssøkende,VGS,Uføretrygd,Ingen
6,dummy_data,LN430,Sara,42,Enke,2,Situasjonsbestemt innsats,Norge,Andre arbeidssøkende,Høyere utd inntil 4 år,Tiltakspenger,Ingen
7,dummy_data,UX876,Johan,39,Enke,1,Varig tilpasset,Norge,Helt ledig,VGS,Tiltakspenger,Ingen
8,dummy_data,TO107,Tobias,37,Enke,2,Standard innsats,Norge,Delvis ledig,Grunnskole,Dagpenger,Ingen
9,dummy_data,OY439,Ella,42,Gift,2,Standard innsats,Malta,Helt ledig,Ukjent,Tiltakspenger,Ingen


In [58]:
aaas.set_data(data_df)

In [59]:
headers = data_df.columns.values.tolist()
headers

['Dummy_tag',
 'ID',
 'Navn',
 'Alder',
 'Sivilstatus',
 'Barn',
 'Innsatsgruppe',
 'Innvandrerbakgrunn',
 'Ledighetsstatus',
 'Utdanning',
 'Ytelse',
 'Medisinsk forhold']

In [60]:
attribute_types = {
 'Dummy_tag': AttributeType.INSENSITIVE,
 'ID': AttributeType.IDENTIFYING,
 'Navn': AttributeType.IDENTIFYING,
 'Alder': AttributeType.INSENSITIVE,
 'Sivilstatus': AttributeType.INSENSITIVE,
 'Barn': AttributeType.INSENSITIVE,
 'Innsatsgruppe': AttributeType.INSENSITIVE,
 'Innvandrerbakgrunn': AttributeType.QUASIIDENTIFYING,
 'Ledighetsstatus': AttributeType.QUASIIDENTIFYING,
 'Utdanning': AttributeType.INSENSITIVE,
 'Ytelse': AttributeType.QUASIIDENTIFYING,
 'Medisinsk forhold': AttributeType.IDENTIFYING
}

### Set Generalization Hierarchies
Note that if the hierarchy does not have a header row in the csv file, please set header=None in read_csv() or the first row will be interpreted as a header and ARXaaS will throw an exception for the missing hierarchy data.

In [61]:
ytelse_hierarchy = pd.read_csv("../hierarchies/Ytelse_hierarchy.csv", sep=";", header=None)
innsatsgruppe_hierarchy = pd.read_csv("../hierarchies/innsatsgruppe_hierarchy.csv", sep=";", header=None)
innvandrerbakgrunn_hierarchy = pd.read_csv("../hierarchies/innvandrerbakgrunn_hierarchy.csv", sep=";", header=None)
ledighetsstatus_hierarchy = pd.read_csv("../hierarchies/ledighetsstatus_hierarchy.csv", sep=";", header=None)

In [62]:
aaas.set_hierarchy('Ytelse', ytelse_hierarchy)
aaas.set_hierarchy("Innsatsgruppe", innsatsgruppe_hierarchy)
aaas.set_hierarchy("Innvandrerbakgrunn", innvandrerbakgrunn_hierarchy)
aaas.set_hierarchy("Ledighetsstatus", ledighetsstatus_hierarchy)

In [63]:
ledighetsstatus_hierarchy

Unnamed: 0,0,1,2
0,Andre arbeidssøkende,Delvis ledig,*
1,Delvis ledig,Delvis ledig,*
2,Helt ledig,ledig,*
3,Ordinær tiltaksdeltaker,ledig,*


### Set Privacy Models

In [64]:
kanon = KAnonymity(4)

In [65]:
aaas.set_model(kanon)

In [66]:
aaas.set_attribute_type(attribute_types)

### Run anonymization

In [67]:
result = aaas.anonymize()

In [68]:
result

<pyaaas.models.anonymize_result.AnonymizeResult at 0x7f28c7139a20>

In [69]:
result.get_result_dataframe()

Unnamed: 0,Dummy_tag,ID,Navn,Alder,Sivilstatus,Barn,Innsatsgruppe,Innvandrerbakgrunn,Ledighetsstatus,Utdanning,Ytelse,Medisinsk forhold
0,dummy_data,*,*,47,Ukjent,1,Spesielt tilpasset,Togo,Delvis ledig,Høyere utd inntil 4 år,Tiltakspenger,*
1,dummy_data,*,*,30,Gift,2,Varig tilpasset,Surinam,ledig,Grunnskole,Dagpenger,*
2,dummy_data,*,*,37,Ukjent,1,Varig tilpasset,Malta,Delvis ledig,Grunnskole,Dagpenger,*
3,dummy_data,*,*,52,Ugift,1,Varig tilpasset,Norge,Delvis ledig,Høyere utd inntil 4 år,Uføretrygd,*
4,dummy_data,*,*,37,Ukjent,3,Spesielt tilpasset,Surinam,Delvis ledig,Høyere utd over 4 år,Dagpenger,*
5,dummy_data,*,*,30,Gift,2,Spesielt tilpasset,Malta,Delvis ledig,VGS,Uføretrygd,*
6,dummy_data,*,*,42,Enke,2,Spesielt tilpasset,Norge,Delvis ledig,Høyere utd inntil 4 år,Tiltakspenger,*
7,dummy_data,*,*,39,Enke,1,Varig tilpasset,Norge,ledig,VGS,Tiltakspenger,*
8,dummy_data,*,*,37,Enke,2,Varig tilpasset,Norge,Delvis ledig,Grunnskole,Dagpenger,*
9,dummy_data,*,*,42,Gift,2,Varig tilpasset,Malta,ledig,Ukjent,Tiltakspenger,*


In [70]:
result.get_metrics_before()

Unnamed: 0_level_0,value
metric,Unnamed: 1_level_1
measure_value,[%]
records_affected_by_highest_risk,0.08
sample_uniques,0.0
estimated_prosecutor_risk,50.0
population_model,DANKAR
records_affected_by_lowest_risk,40.98
estimated_marketer_risk,3.58
highest_prosecutor_risk,50.0
estimated_journalist_risk,50.0
lowest_risk,0.27472527472527475


In [71]:
result.get_metrics_after()

Unnamed: 0_level_0,value
metric,Unnamed: 1_level_1
measure_value,[%]
records_affected_by_highest_risk,0.3
sample_uniques,0.0
estimated_prosecutor_risk,20.0
population_model,DANKAR
records_affected_by_lowest_risk,57.55999999999999
estimated_marketer_risk,1.82
highest_prosecutor_risk,20.0
estimated_journalist_risk,20.0
lowest_risk,0.1594896331738437
