In [235]:
import numpy as np

## Algorytm EM David-Skene
Załóżmy, że mamy $I$ itemów, zaindeksowanych $i=1,...,I$.
Każdy item $i$ jest anotowany przez jednego z $K$ anotatorów ,$k=1,...,K$.
Nie każdy anotator musi ocenić wszystkie itemy, ale anotator może odpowiedzieć na jedno pytanie więcej niż jeden raz.
Mamy $J$ możliwych klas odpwiedzi, indeksowane $l=1,...,J$.
Określamy $n_{il}^{(k)}$ jako liczbę ile razy anotator $k$ oznaczył odpowiedzią $l$ item $i$.

Głównym celem zadania jest obliczenie error-rates, oznaczanych jako $\pi_{jl}^{(k)}$, gdzie $q$ i $l$ to klasy odpowiedzi (chyba: prawdopodobieństwo, że wybrano klase $l$ zmiast klasy $j$).



## Kroki algorytmu

### 1. Zainicializuj początkowe wartości T
### 2. Wylicz estymacje $p$ oraz $\pi$
Użyj równania (2.3) oraz równania (2.4) by obliczyć estymacje wartości $p$ oraz $\pi$.

$$\mathrm{(2.3)}~\hat{\pi}_{jl}^{(k)}=\frac{\sum_i T_{ij} n_{il}^{(k)} }{\sum_l\sum_i T_{ij} n_{il}^{(k)}}$$

Co można interpretować jako:
$$\mathrm{(1.1)}~\hat{\pi}_{jl}^{(k)}=\frac{\mathrm{ile~razy~anotator~k~oznaczył~wartość~l~zamiast~j}}{\mathrm{ile~itemów~oznaczonych~przez~anotatora~k~miało~prawidło~wybraną~klasę~j}}$$

Niech $T_{ij}$ zawiera prawdopodobieństwo, że item $i$ ma odpowiedź $j$. Jeżeli odpowiedź $j$ jest właściwa dla itemu $i$ to $T_{ij}=1$ w przeciwnym wypadku $T_{ij}=0~(j\neq q)$

Oszacowanie prawdopodobieństwa klasy $j$. Liczone jako:

$$\mathrm{(2.4)}~\hat{p}_j=\frac{\sum_i T{ij}}{I}$$

Gdzie $T_{ij}$ to prawdopodobieństwo, że item $i$ ma klasę $j$, a $I$ to liczba wszystkich itemów.

### 3. Oszacuj nowe wartości dla $T$
Użyj równania (2.5) i estymatów wyliczonych w kroku 2. ($p$ oraz $\pi$) by oszacować nowe wartości T. Estymacja $T_{ij}$ liczona jest jako:
$$E(T_{ij}|data)=p(T_{ij}=1|data)$$.
To oszacowanie jest wyrażone jako prawdopodobieństwo, że $j$ jest prawdziwą odpowiedzią dla itema $i$. Takie prawdopodobieństwo może być również użyte jako wejściowe wartości w kroku 1.

Liczone jest wzorem:
$$(2.5)~p(T_{ij}=1|\mathrm{data})=\frac{\prod_{k=1}^K\prod_{l=1}^J (\pi_{jl}^{(k)})^{n_{il}^{(k)}} p_j}{\sum_{q=1}^J\prod_{k=1}^{K}\prod_{l=1}^J(\pi_{ql}^{(k)})^{n_{il}^{(k)}}p_q}$$


### 4. Powtarzaj
Powtarzaj kroki 2. i 3. aż do otrzymania zbieżności.


### Końcowe oszacowanie
$$\prod_{i=1}^I\Big(\sum_{j=1}^J p_j \prod_{k=1}^K \prod_{l=1}^K (\pi_{ql}^{(k)})^{n_{il}^{(k)}}\Big)$$


http://docs.enthought.com/uchicago-pyanno/index.html
http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=2B92C4AD34D55B2D4B8642F1146116F6?doi=10.1.1.469.1377&rep=rep1&type=pdf

In [516]:
# https://github.com/dallascard/dawid_skene/blob/master/dawid_skene.py
#better implementation using numpy magix

In [517]:
data = {
    1: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    2: {1:[3,3,3], 2:[4], 3:[3], 4:[3], 5:[4]},
    3: {1:[1,1,2], 2:[2], 3:[1], 4:[2], 5:[2]},
    4: {1:[2,2,2], 2:[3], 3:[1], 4:[2], 5:[1]},
    5: {1:[2,2,2], 2:[3], 3:[2], 4:[2], 5:[2]},
    6: {1:[2,2,2], 2:[3], 3:[3], 4:[2], 5:[2]},
    7: {1:[1,2,2], 2:[2], 3:[1], 4:[1], 5:[1]},
    8: {1:[3,3,3], 2:[3], 3:[4], 4:[3], 5:[3]},
    9: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[3]},
    10: {1:[2,3,2], 2:[2], 3:[2], 4:[2], 5:[3]},
    11: {1:[4,4,4], 2:[4], 3:[4], 4:[4], 5:[4]},
    12: {1:[2,2,2], 2:[3], 3:[3], 4:[4], 5:[3]},
    13: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    14: {1:[2,2,2], 2:[3], 3:[2], 4:[1], 5:[2]},
    15: {1:[1,2,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    16: {1:[1,1,1], 2:[2], 3:[1], 4:[1], 5:[1]},
    17: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    18: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    19: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[1]},
    20: {1:[2,2,2], 2:[1], 3:[3], 4:[2], 5:[2]},
    21: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[2]},
    22: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[1]},
    23: {1:[2,2,2], 2:[3], 3:[2], 4:[2], 5:[2]},
    24: {1:[2,2,1], 2:[2], 3:[2], 4:[2], 5:[2]},
    25: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    26: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    27: {1:[2,3,2], 2:[2], 3:[2], 4:[2], 5:[2]},
    28: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    29: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    30: {1:[1,1,2], 2:[1], 3:[1], 4:[2], 5:[1]},
    31: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    32: {1:[3,3,3], 2:[3], 3:[2], 4:[3], 5:[3]},
    33: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    34: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[2]},
    35: {1:[2,2,2], 2:[3], 3:[2], 4:[3], 5:[2]},
    36: {1:[4,3,3], 2:[4], 3:[3], 4:[4], 5:[3]},
    37: {1:[2,2,1], 2:[2], 3:[2], 4:[3], 5:[2]},
    38: {1:[2,3,2], 2:[3], 3:[2], 4:[3], 5:[3]},
    39: {1:[3,3,3], 2:[3], 3:[4], 4:[3], 5:[2]},
    40: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    41: {1:[1,1,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    42: {1:[1,2,1], 2:[2], 3:[1], 4:[1], 5:[1]},
    43: {1:[2,3,2], 2:[2], 3:[2], 4:[2], 5:[2]},
    44: {1:[1,2,1], 2:[1], 3:[1], 4:[1], 5:[1]},
    45: {1:[2,2,2], 2:[2], 3:[2], 4:[2], 5:[2]}
}


In [518]:
def summarize_data(data):
    items = sorted(data.keys())
    items_count = len(items)

    annotators = set()
    classes = set()

    for index in items:
        item_annotators = data[index].keys()

        for k in item_annotators:
            annotators.add(k)
            item_annotator_annotations = data[index][k]
            classes.update(item_annotator_annotations)

    classes = sorted(list(classes))
    classes_count = len(classes)

    annotators = list(annotators)
    annotators_count = len(annotators)

    counts = np.zeros([items_count, annotators_count, classes_count])

    for item in items:
        i = items.index(item)
        for annotator in data[index].keys():
            k = annotators.index(annotator)
            for clas in data[item][annotator]:
                j = classes.index(clas)
                counts[i, k, j] += 1

    return (items, annotators, classes, counts)


In [519]:
def initialize_item_classes(counts):
    items_count, annotators_count, classes_count = np.shape(counts)
    classes_sums = np.sum(counts, 1)

    item_classes = np.zeros([items_count, classes_count])

    for i in xrange(items_count):
        item_classes[i, :] = classes_sums[i, :] / np.sum(classes_sums[i,:], dtype=float)
    
    return item_classes


In [523]:
def m_step(counts, items_classes):
    items_count, annotators_count, classes_count = np.shape(counts)

    class_marginals = np.zeros(classes_count)
    for j in xrange(classes_count):
        class_marginals[j] = sum([items_classes[i, j] for i in xrange(items_count)]) / items_count

    error_rates = np.zeros([annotators_count, classes_count, classes_count])
    for k in xrange(annotators_count):
        for j in xrange(classes_count):
            for l in xrange(classes_count):
                counter = sum([items_classes[i, j] * counts[i, k, l] for i in xrange(items_count)])
                denominator = sum([sum([items_classes[(i, j)] * counts[i, k, ll] for i in xrange(items_count)]) for ll in xrange(J)])
                error_rates[k, j, l] = counter / denominator
    return (class_marginals, error_rates)


In [524]:
def e_step(counts, class_marginals, error_rates):
    [items_count, annotators_count, classes_count] = np.shape(counts)

    item_classes = np.zeros([items_count, classes_count])    

    for i in xrange(items_count):
        for j in xrange(classes_count):
            ccounter = p[j]
            for k in xrange(annotators_count):
                annotator_counter = 1
                for l in xrange(classes_count):
                    annotator_counter *= error_rates[k, j, l] ** counts[i, k, l]
                ccounter *= annotator_counter

            item_classes[i, j] = ccounter

            class_sum = 0
            for q in xrange(classes_count):
                counter = p[q]
                for k in xrange(annotators_count):
                    annotator_counter = 1
                    for l in xrange(classes_count):
                        annotator_counter *= error_rates[k, q, l] ** counts[i, k, l] 
                    counter *= annotator_counter
                class_sum += counter
                
            item_classes[i, j] = ccounter/float(class_sum)
            
    return item_classes


In [525]:
items, annotators, classes, counts = summarize_data(data)
items_classes = initialize_item_classes(counts)

for _ in xrange(100):
    class_marginals, error_rates = m_step(counts, items_classes)
    item_classes = e_step(counts, class_marginals, error_rates)

In [526]:
for index, item in enumerate(item_classes):
    max_class = np.max(item)
    print np.argmax(item)+1, max_class

1 0.999999469163
4 0.600617557327
2 0.764778433666
2 0.99784419555
2 0.991920472922
2 0.96004226848
1 0.950026466241
3 0.977410390021
2 0.994375468077
2 0.911040205545
4 0.999998602699
3 0.857222505979
1 0.999999469163
2 0.994659237987
1 0.999973468726
1 0.999978943891
1 0.999999469163
1 0.999999469163
2 0.999796840213
2 0.994340231803
2 0.999226097279
2 0.999796840213
2 0.991920472922
2 0.999836379095
1 0.999999469163
1 0.999999469163
2 0.986822608799
1 0.999999469163
1 0.999999469163
1 0.99846757841
1 0.999999469163
3 0.999802507433
1 0.999999469163
2 0.999226097279
2 0.881393838226
4 0.980404920622
2 0.998091063114
3 0.944405052898
3 0.992516786482
1 0.999999469163
1 0.999999469163
1 0.998948671552
2 0.986822608799
1 0.999973468726
2 0.999226097279
