# Innføring i DACO

`DACO` er en Python-pakke som tar inn to Pandas datarammer og sammenlikner disse ved hjelp av plott og tallmetrikker. Vi vil her gå gjennom et tilfelle hvor vi har et datasett som er splitta i to deler, og vi vil sjekke om disse delen er like, et konkret tilfelle kan være å sammenlikne data fra to forskjellige år.

In [None]:
from daco.daco import daco
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Innlasting av data, konvertering av datatyper for kolonnene, og navngiving av features og targets (hvis nødvendig)

In [None]:
header = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country', 'pred_var']
df = pd.read_csv('datasets/adult.data.txt', sep=",",names=header, header=None)

cat_var = ['workclass','education','marital-status','occupation','relationship','race','sex','native-country', 'pred_var']

for var in (set(header) - set(cat_var)):
  df[var] = df[var].astype('float')
for var in cat_var:
  df[var] = df[var].astype('category')

features = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country']
target = ['pred_var']

Vi jukser litt og splitter datasettet i to, hvor den ene skal forestille en syntetisk versjon av den originale

In [None]:
df1 = df[:15000]
df2 = df[15000:]

Initialisering av DACO-objektet

In [None]:
daco_obj = daco(df1,df2)

Finner distribusjonene til alle numeriske og kategoriske variable i datasettet

In [None]:
dist = daco_obj.findDistributions()

Printer ut metrikker for alle numeriske variable på markdown-format.

In [None]:
daco_obj.printDistances()

Plotter et canvas av distribusjoner for numeriske og kategoriske variable i datasettet

In [None]:
daco_obj.plotCanvas()
plt.savefig('canvas.pdf')

Plotter korrelasjonsmatrisa for de numeriske variablene i de to datasettene

In [None]:
daco_obj.plotCorrelationDiff()

## Distansemetrikker
I `DACO` er flere distansemetrikker implementert:
* Bhattacharyya
* Chi-kvadrat
* Hellinger
* KS2-test
* Kullback-Leibler
* Wasserstein
* Synthetic Ranking Agreement (SRA)
* Tren syntetisk, test på ekte (TSTR)

Disse er beskrevet i nærmere detalj i dokumentasjonen: https://navikt.github.io/ai-lab-daco/. Her så vil vi vise hvordan de kan brukes.

In [None]:
daco_obj.bhattacharyya('age')
daco_obj.chisquare('age')
daco_obj.hellinger('age')
daco_obj.ks2_test('age')
daco_obj.kullbackleibler('age')
daco_obj.syntheticRankingAgreement()
daco_obj.trainSynthTestReal()
daco_obj.wasserstein('age')