# Innføring i DACO

Målet med denne er å gi en kjapp innføring i hvordan man kan bruke `DACO` for å dokumentere utfallet av en syntetiseringsprosess. Arbeidsflyten er lagt opp slik at man gir inn to Pandas dataframes hvor den ene er originale data, mens den andre er den syntetiske versjonen, deretter kjører man funksjoner som regner ut metrikker og plotter resultatene.

In [None]:
from daco.daco import daco
import pandas as pd
import numpy as np

# Innlasting av data, konvertering av datatyper for kolonnene, og navngiving av features og targets (hvis nødvendig)
header = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country', 'pred_var']
df = pd.read_csv('datasets/adult.data.txt', sep=",",names=header, header=None)

cat_var = ['workclass','education','marital-status','occupation','relationship','race','sex','native-country', 'pred_var']

for var in (set(header) - set(cat_var)):
  df[var] = df[var].astype('float')
for var in cat_var:
  df[var] = df[var].astype('category')

features = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country']
target = ['pred_var']

# Vi jukser litt og splitter datasettet i to, hvor den ene skal forestille en syntetisk versjon
# av den originale
df1 = df[:15000]
df2 = df[15000:]

In [None]:
# Initialisering av DACO-objektet
daco_obj = daco(df1,df2)

In [None]:
# Finner distribusjonene til alle numeriske og kategoriske variable i datasettet
dist = daco_obj.findDistributions()

In [None]:
# Printer ut metrikker for alle numeriske variable i datasettet på markdown-format.
daco_obj.printDistances()

In [None]:
import matplotlib.pyplot as plt
# Plotter et canvas av distribusjoner for numeriske og kategoriske variable i datasettet
daco_obj.plotCanvas()
plt.savefig('canvas.pdf')

In [None]:
# Plotter korrelasjonsmatrisa for de numeriske variablene i de to datasettene
daco_obj.plotCorrelationDiff()

In [None]:
# Plotte distansemetrikker som boksplot
daco_obj.plotDistanceMetrics()

In [None]:
import sys
for path in sys.path:
    print(path)

In [None]:
sys.path[-1] = '/Users/jonvegard/Desktop/TEMP_venv_DACO/TEMP_daco/lib/python3.7/site-packages/'