In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pandas
import IPython.display

import raha
import datetime

In [3]:
unary_fd_example = {
    "name": "binary_fd_example",
    "path": "../datasets/unary-fd-example/dirty.csv",
    "clean_path": "../datasets/unary-fd-example/clean.csv"
}

binary_fd_example = {
    "name": "binary_fd_example",
    "path": "../datasets/binary-fd-example/dirty.csv",
    "clean_path": "../datasets/binary-fd-example/clean.csv"
}

# Unary FDs
Im folgenden Beispiel zeige ich, wie die unary FD - Implementierung in Baran funktioniert. Dazu stelle ich alle anderen Featuregeneratoren mittels `VICINITY_ONLY = True` aus. Der Metalearner ist ein Decision Tree Classifier, und das labeling-budget limitiere ich auf 1 -- damit zwinge ich den Metalearner, mit einem test-set von einem Tupel auszukommen. Somit ist es zwingend notwendig, dass für eine korrekte Datensäuberung die Features eine hohe Qualität haben.

In [9]:
datasets = [unary_fd_example]

for dataset_dictionary in datasets:
    app_2 = raha.Correction()

    app_2.LABELING_BUDGET = 1
    app_2.VERBOSE = True
    app_2.CLASSIFICATION_MODEL = "DTC"
    app_2.EXPERIMENT = 'adder'
    app_2.VICINITY_ONLY = True
    app_2.HIGHER_ORDER_FEATURE_GENERATOR = ''  # disable

    d = raha.dataset.Dataset(dataset_dictionary)
    d.detected_cells = dict(d.get_actual_errors_dictionary())
    d = app_2.initialize_dataset(d)

    app_2.initialize_models(d)
    while len(d.labeled_tuples) < app_2.LABELING_BUDGET:
        app_2.sample_tuple(d, random_seed=0)
        if d.has_ground_truth:
            app_2.label_with_ground_truth(d)
        app_2.update_models(d)
        app_2.generate_features_synchronously(d)
        app_2.predict_corrections(d, random_seed=0)

    p, r, f = d.get_data_cleaning_evaluation(d.corrected_cells)[-3:]
    print({'dataset': d.name, 'experiment': app_2.EXPERIMENT, 'precision': p, 'recall': r, 'f1': f})

The error corrector models are initialized.
Tuple 3 is sampled.
Tuple 3 is labeled.
The error corrector models are updated with new labeled tuple 3.
3 pairs of (a data error, a potential correction) are featurized.
100% (3 / 3) of data errors are corrected.
{'dataset': 'binary_fd_example', 'experiment': 'adder', 'precision': 1.0, 'recall': 1.0, 'f1': 1.0}


Mit nur einem korrekten Beispiel in den ungesäuberten Daten und einem Label ist Baran in der Lage, zwei falsche ZIP-Codes für St. Petersburg zu reinigen.

In [5]:
d.dataframe

Unnamed: 0.1,Unnamed: 0,name,zip,country,city
0,0,A,1,Russia,St. Petersburg
1,1,B,123456,Russia,St. Petersburg
2,2,C,123456,Russia,St. Petersburg
3,3,D,123456,Russia,St. Petersburg
4,4,E,2,Russia,Moscow
5,5,F,3,Russia,Vladivostok
6,6,G,10,USA,Miami
7,7,H,10,USA,Miami
8,8,I,10,USA,Miami
9,9,J,100,Germany,Potsdam


Erkannt wird, dass `city -> zip` gilt. Diese unäre Dependency muss sich intern durchsetzen gegen anderen Features. Schauen wir uns das an:

In [11]:
d.pair_features

{(1, 2): {'1': array([0., 0., 0., 0., 1.])},
 (2, 2): {'1': array([0., 0., 0., 0., 1.])},
 (3, 2): {'1': array([0., 0., 0., 0., 1.])}}

In [7]:
d.pair_features

{(1, 2): {'1': array([0. , 0. , 0. , 0.5, 1. ]),
  '2': array([0.  , 0.  , 0.  , 0.25, 0.  ]),
  '3': array([0.  , 0.  , 0.  , 0.25, 0.  ])},
 (2, 2): {'1': array([0. , 0. , 0. , 0.5, 1. ]),
  '2': array([0.  , 0.  , 0.  , 0.25, 0.  ]),
  '3': array([0.  , 0.  , 0.  , 0.25, 0.  ])},
 (3, 2): {'1': array([1. , 1. , 0. , 0.5, 1. ]),
  '2': array([0.  , 0.  , 0.  , 0.25, 0.  ]),
  '3': array([0.  , 0.  , 0.  , 0.25, 0.  ])}}

Hier setzt sich `city -> zip` gegen `country -> zip` durch. Das geschieht nur, wenn es genügend Beispiele für diese Beziehung gibt. Löscht man die Zeile mit `city = Vladivostok` aus der Tablle, funktioniert die das Adversarial Example nicht mehr. Das demonstriere ich an dieser Stelle aber nicht.

## Binary FDs

Im Folgenden beißt sich Barans FD-Implementierung die Zähne aus.

In [45]:
datasets = [binary_fd_example]

for dataset_dictionary in datasets:
    app_2 = raha.Correction()

    app_2.LABELING_BUDGET = 2
    app_2.VERBOSE = True
    app_2.CLASSIFICATION_MODEL = "DTC"
    app_2.EXPERIMENT = 'adder'
    app_2.VICINITY_ONLY = True
    app_2.HIGHER_ORDER_FEATURE_GENERATOR = ''  # disable

    d = raha.dataset.Dataset(dataset_dictionary)
    d.detected_cells = dict(d.get_actual_errors_dictionary())
    d = app_2.initialize_dataset(d)

    app_2.initialize_models(d)
    while len(d.labeled_tuples) < app_2.LABELING_BUDGET:
        app_2.sample_tuple(d, random_seed=1)
        if d.has_ground_truth:
            app_2.label_with_ground_truth(d)
        app_2.update_models(d)
        app_2.generate_features(d)
        app_2.predict_corrections(d, random_seed=0)

    p, r, f = d.get_data_cleaning_evaluation(d.corrected_cells)[-3:]
    print({'dataset': d.name, 'experiment': app_2.EXPERIMENT, 'precision': p, 'recall': r, 'f1': f})

The error corrector models are initialized.
Tuple 3 is sampled.
Tuple 3 is labeled.
The error corrector models are updated with new labeled tuple 3.
18 pairs of (a data error, a potential correction) are featurized.
100% (5 / 5) of data errors are corrected.
Tuple 6 is sampled.
Tuple 6 is labeled.
The error corrector models are updated with new labeled tuple 6.
18 pairs of (a data error, a potential correction) are featurized.
100% (5 / 5) of data errors are corrected.
{'dataset': 'binary_fd_example', 'experiment': 'adder', 'precision': 0.6, 'recall': 0.6, 'f1': 0.6}


In [46]:
d.dataframe

Unnamed: 0.1,Unnamed: 0,name,zip,country,city
0,0,A,1,Russia,St. Petersburg
1,1,B,123456,Russia,St. Petersburg
2,2,C,123456,Russia,St. Petersburg
3,3,D,123456,Russia,St. Petersburg
4,4,E,2,Russia,Moscow
5,5,F,3,Russia,Vladivostok
6,6,G,10,USA,St. Petersburg
7,7,H,123456,USA,St. Petersburg
8,8,I,123456,USA,St. Petersburg
9,9,J,100,Germany,Potsdam


In [47]:
d.create_repaired_dataset(d.corrected_cells)
d.repaired_dataframe

Unnamed: 0.1,Unnamed: 0,name,zip,country,city
0,0,A,1,Russia,St. Petersburg
1,1,B,1,Russia,St. Petersburg
2,2,C,1,Russia,St. Petersburg
3,3,D,1,Russia,St. Petersburg
4,4,E,2,Russia,Moscow
5,5,F,3,Russia,Vladivostok
6,6,G,10,USA,St. Petersburg
7,7,H,11,USA,St. Petersburg
8,8,I,11,USA,St. Petersburg
9,9,J,100,Germany,Potsdam


Der Zip-Code `1` für St. Petersburg, Russland, wurde korrekt gereinigt. Hingegen ist der Zip-Code für St. Petersburg, USA, inkorrekt mit dem Wert `11` korrigiert wurden. Die Korrektur entstammt dem ZIP Miamis. Intern haben zu dieser Korrektur die falschen FDs `country -> zip` und `city -> zip` beigetragen:

In [53]:
d.pair_features[(7,2)]

{'10': array([0.        , 0.        , 0.        , 0.33333333, 0.33333333]),
 '11': array([0.        , 0.        , 0.        , 0.66666667, 0.        ]),
 '1': array([0.        , 0.        , 0.        , 0.        , 0.66666667])}

Abschließend kann man mit dem `random_seed` des tuple-sampling experimentieren. Ist diese 0, werden die beiden St. Petersburgs, USA, gesampelt und korrekt gesäubert. Die Information reicht aber nicht aus, um St. Petersburg, Russia korrekt zu reinigen. Mit `random_seed=1` erhält man eine Auswahl, bei dem die beiden St. Petersburgs, Russia, gelabelt werden. Diese Information reicht dann im Weiteren nicht aus, um die St. Petersburgs, USA zu reinigen.

## Binäre FDs
Das Ergebnis sieht erheblich anders aus, wenn ich FDs 2. Ordnung benutze beim Feature-Sampling.

In [43]:
datasets = [binary_fd_example]

for dataset_dictionary in datasets:
    app_2 = raha.Correction()

    app_2.LABELING_BUDGET = 1
    app_2.VERBOSE = True
    app_2.CLASSIFICATION_MODEL = "DTC"
    app_2.EXPERIMENT = 'adder'
    app_2.VICINITY_ONLY = True
    app_2.VICINITY_ORDER = 2
    app_2.HIGHER_ORDER_FEATURE_GENERATOR = 'naive'

    d = raha.dataset.Dataset(dataset_dictionary)
    d.detected_cells = dict(d.get_actual_errors_dictionary())
    d = app_2.initialize_dataset(d)

    app_2.initialize_models(d)
    while len(d.labeled_tuples) < app_2.LABELING_BUDGET:
        app_2.sample_tuple(d, random_seed=0)
        if d.has_ground_truth:
            app_2.label_with_ground_truth(d)
        app_2.update_models(d)
        app_2.generate_features_synchronously(d)
        app_2.predict_corrections(d, random_seed=0)

    p, r, f = d.get_data_cleaning_evaluation(d.corrected_cells)[-3:]
    print({'dataset': d.name, 'experiment': app_2.EXPERIMENT, 'precision': p, 'recall': r, 'f1': f})

The error corrector models are initialized.
Tuple 8 is sampled.
Tuple 8 is labeled.
The error corrector models are updated with new labeled tuple 8.
18 pairs of (a data error, a potential correction) are featurized.
100% (5 / 5) of data errors are corrected.
{'dataset': 'binary_fd_example', 'experiment': 'adder', 'precision': 1.0, 'recall': 1.0, 'f1': 1.0}


In [22]:
d.pdep_counts_dict[(3,4)][2]

{('Russia', 'St. Petersburg'): {'1': 1.0},
 ('Russia', 'Moscow'): {'2': 1.0},
 ('Russia', 'Vladivostok'): {'3': 1.0},
 ('USA', 'St. Petersburg'): {'10': 2.0},
 ('Germany', 'Potsdam'): {'100': 1.0},
 ('Germany', 'Berlin'): {'101': 1.0},
 ('USA', 'Miami'): {'11': 2.0}}

In [23]:
d.create_repaired_dataset(d.corrected_cells)
d.repaired_dataframe

Unnamed: 0.1,Unnamed: 0,name,zip,country,city
0,0,A,1,Russia,St. Petersburg
1,1,B,1,Russia,St. Petersburg
2,2,C,1,Russia,St. Petersburg
3,3,D,1,Russia,St. Petersburg
4,4,E,2,Russia,Moscow
5,5,F,3,Russia,Vladivostok
6,6,G,10,USA,St. Petersburg
7,7,H,10,USA,St. Petersburg
8,8,I,10,USA,St. Petersburg
9,9,J,100,Germany,Potsdam


It's a beauty! Die Anzahl an Features skaliert mit $\frac{(n-1)^2}{2}$, wenn $n$ die Anzahl an Spalten der Tabelle ist:

In [24]:
d.pair_features[(1,2)]

{'1': array([0.        , 0.        , 0.        , 0.33333333, 0.33333333,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 1.        ]),
 '2': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ]),
 '3': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ]),
 '10': array([0.        , 0.        , 0.        , 0.        , 0.66666667,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ])}

In [25]:
len(d.pair_features[(1,2)]['1'])

15

## GPDEP - basiertes Ranking

Die $gpdep$-Werte können negativ sein, generell gilt, dass, wenn $gpdep(A,B) > gpdep(A,C)$, dann ist die Abhängigkeit zwischen $A,B$ größer als zwischen $A,C$.

In [66]:
datasets = [binary_fd_example]

for dataset_dictionary in datasets:
    app_2 = raha.Correction()

    app_2.LABELING_BUDGET = 2
    app_2.VERBOSE = False
    app_2.CLASSIFICATION_MODEL = "ABC"
    app_2.EXPERIMENT = 'adder'
    app_2.VICINITY_ONLY = True
    app_2.VICINITY_ORDER = 2
    app_2.HIGHER_ORDER_FEATURE_GENERATOR = 'pdep'
    app_2.N_BEST_PDEPDS = 1

    d = raha.dataset.Dataset(dataset_dictionary)
    d.detected_cells = dict(d.get_actual_errors_dictionary())
    d = app_2.initialize_dataset(d)

    app_2.initialize_models(d)
    while len(d.labeled_tuples) < app_2.LABELING_BUDGET:
        app_2.sample_tuple(d, random_seed=0)
        if d.has_ground_truth:
            app_2.label_with_ground_truth(d)
        app_2.update_models(d)
        app_2.generate_features_synchronously(d)
        app_2.predict_corrections(d, random_seed=0)

    p, r, f = d.get_data_cleaning_evaluation(d.corrected_cells)[-3:]
    print({'dataset': d.name, 'experiment': app_2.EXPERIMENT, 'precision': p, 'recall': r, 'f1': f})

{'dataset': 'binary_fd_example', 'experiment': 'adder', 'precision': 1.0, 'recall': 0.4, 'f1': 0.5714285714285715}


Schaut man in die generierten Features, so ist zu beobachten, dass 14 statt 25 Features im letzten Durchlauf generiert werden. Das Ergebnis ist leider noch nicht gut, was verwunderlich ist, da die Features den Features aus dem letzten Durchlauf sehr ähneln.

Betrachtet man die Features, so stellt man fest, dass ein `softmax()` immer zur richtigen Korrektur führen würde. Das pdep-Feature liegt immer richtig. 

In [72]:
d.pair_features[(2,2)]

{'1': array([0.        , 0.        , 0.        , 0.33333333, 0.25      ,
        1.        ]),
 '2': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        ]),
 '3': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        ]),
 '10': array([0.  , 0.  , 0.  , 0.  , 0.75, 0.  ])}

In [73]:
d.pair_features[(3,2)]

{'1': array([0.        , 0.        , 0.        , 0.33333333, 0.25      ,
        1.        ]),
 '2': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        ]),
 '3': array([0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        ]),
 '10': array([0.  , 0.  , 0.  , 0.  , 0.75, 0.  ])}

In [69]:
d.pair_features[(8,2)]

{'10': array([1.  , 1.  , 0.  , 0.6 , 0.75, 1.  ]),
 '11': array([0. , 0. , 0. , 0.4, 0. , 0. ]),
 '1': array([0.  , 0.  , 0.  , 0.  , 0.25, 0.  ])}

In [70]:
len(d.pair_features[(1,2)]['1'])

6

In [71]:
d.create_repaired_dataset(d.corrected_cells)
d.repaired_dataframe

Unnamed: 0.1,Unnamed: 0,name,zip,country,city
0,0,A,1,Russia,St. Petersburg
1,1,B,123456,Russia,St. Petersburg
2,2,C,123456,Russia,St. Petersburg
3,3,D,123456,Russia,St. Petersburg
4,4,E,2,Russia,Moscow
5,5,F,3,Russia,Vladivostok
6,6,G,10,USA,St. Petersburg
7,7,H,10,USA,St. Petersburg
8,8,I,10,USA,St. Petersburg
9,9,J,100,Germany,Potsdam
