#Crowd-Powered Find Algorithms


Il campo del crowdsourcing, combina le capacità computazionali delle macchine e dell'uomo per risolvere problemi che potrebbero essere difficili ai due se presi singolarmente.
Uno scenario tipico è quello dell'uomo che individua degli elementi all'interno di immagini o video, operazione che non risulta seplice da eseguire per un calcolatore elettronico.

L'algoritmo di CrowFind è uno strumento che si abbina al crowdsourcing per determinare il giusto numero di domande da fare e come farle.

ALGORITMO BASE DI CROWDFIND : 
dato un numero di oggetti una proprietà booleana P, un numero K, attraverso domande fatte agli umani si vogliono trovare K oggetti che soddisfano P. 

E' importante precisare che non esiste un'unica soluzione ne una soluzione che sia la migliore,  ci sono invece varie implementazioni che tendono conto del tradeoff tra costo e tempo.

Scenario sequenziale: viene fatta una domanda per volta finchè non si arriva a K oggetti che soddisfano P. Costo minimo ma tempo elevato.

Scenario parallelo: vengono mostrate tutte le immagini in parallelo in unica fase. Tempo minimo ma costo massimo.

Esistono inoltre scenari ibridi in cui si possono settare delle soglie entro cui potersi muovere o in termine di fasi o di domande.

Tutto ciò tiene conto di due possbili scenari: quando l'umano non sbaglia mai(ideale ma irreale), e quando l'uomo può sbagliare nel rispondere.

Per stabilire in questo secondo caso se un oggetto gode o meno della proprietà P,  vengono fatte più domande sullo stesso oggetto, e vengono utilizzate  delle strategie per determinare il risultato (nel paper Rectangular, Majority e Treshold). 
Ogni punto della strategia viene individuato dalla coppia (n1,n2)  dove n1= numero di risposte Yes per l'oggetto  e n2= numero di risposte No.
Per ognuno di questi punti viene calcolato il costo aspettato Y(n1,n2), che serve per scegliere se per trovare il prossimo oggetto che soddisfa la proprietà conviene continuare a fare domande su quell'oggetto oppure scartarlo e passare ad esaminarne un altro.
La Y tiene conto della selettività a priori e dell'errore rate che si considera essere uguale per ogni utente.






# Algoritmo UncOptCost



```
Data: I, K1 , Pr(⋅), strategy S
Result: Set L of K 1 1 items
L ← ∅;
U = I;
Compute Y for each point in the strategy R;
while ∣L∣ < K 1 do
    Pick I ′ ⊆ U , ∣I ′ ∣ = (K 1 − ∣L∣) items with the lowest Y (R(I));
    CQ ← {};
    for each I ∈ I ′ do
        Let n+ be the fewest YES responses required to make Y (R(I)) = 0;
        Let n− be the fewest NO responses required to make
        Y (R(I)) = Y (0, 0);
        Add min{n + , n − } questions on I to CQ;
    Ask CQ in parallel to the crowdsourcing service;
    Update R(I) for each I ∈ CQ based on answers;
    for each I ∈ CQ do
        if S(R(I)) = 1 then
            Remove I from U and add it to L;
        if S(R(I)) = 0 then
            Remove I from U ;
```



##Calcolo delle probabilità

In [0]:
def p_n1n2_if_true(n1, n2):
    return ((1 - errorRate) ** n1) * (errorRate ** n2)


def p_n1n2_if_false(n1, n2):
    return (errorRate ** n1) * ((1 - errorRate) ** n2)


def p_n1n2(n1, n2,):
    return selectivity * p_n1n2_if_true(n1, n2) + (1 - selectivity) * p_n1n2_if_false(n1, n2)


#la probabilità effettivamente è uno
def pr1n1n2(n1, n2):
    assert p_n1n2(n1, n2) != 0, 'Probability is not defined if P(n1, n2) = 0'
    return selectivity * p_n1n2_if_true(n1, n2) / p_n1n2(n1, n2)


#def pr0n1n2(n1, n2):
    #return 1 - pr1n1n2(n1, n2)

def pr0n1n2(n1, n2):
    assert p_n1n2(n1, n2) != 0, 'Probability is not defined if P(n1, n2) = 0'
    return (1-selectivity) * p_n1n2_if_false(n1, n2) / p_n1n2(n1, n2)


def p0(n1, n2):
    return pr1n1n2(n1, n2) * errorRate + pr0n1n2(n1, n2) * (1 - errorRate)


def p1(n1, n2):
    return pr1n1n2(n1, n2) * (1 - errorRate) + pr0n1n2(n1, n2) * errorRate

#Implementazione delle varie strategie

In [0]:
def rectangular(n1, n2):
    if n1 == M1:
        return 1
    if n2 == M2:
        return 0
    return 2

In [0]:
def majority(n1, n2, M):
    if n1 == ((M + 1) / 2):
        return 1
    if n2 == ((M + 1) / 2):
        return 0
    return 2

In [0]:
def treshold(n1,n2):
    if tresh1 < tresh2:
        print("incorrect threshold configuration... will be reversed")
        treshapp1=tresh2
        treshapp2=tresh1
    else:
        treshapp1=tresh1
        treshapp2=tresh2
        
    if treshapp1<=pr1n1n2(n1,n2):
        return 1
    else:
        if treshapp2>pr0n1n2(n1,n2):
        #if treshapp1 < pr0n1n2(n1, n2):
            return 0
        else:
            return majority(n1,n2,M)

##Calcolo di Y per ogni punto e di Y(0,0) ottimale



In [0]:
def Y(n1, n2, Y0, strategy=rectangular):
    if n1 == n2 == 0:
        return Y0
    if strategy(n1, n2) == 0:
        return Y0
    if strategy(n1, n2) == 1:
        return 0
    return min(Y0,
               1 + p1(n1, n2) * Y(n1 + 1, n2, Y0,  strategy=strategy)
               + p0(n1, n2) * Y(n1, n2 + 1, Y0, strategy=strategy))


def Y00():
    max_error = 1e-2
    max_iterations = 50
    found = False
    i = 0

    current_max = 500
    current_min = 0

    while not found:
        if i == max_iterations:
            raise Exception("Max Iterations")

        candidate_y00 = current_min + (current_max - current_min) / 2.0

     
        estimated_Y00 = 1 + p1(0, 0) * Y(1, 0,candidate_y00) + p0(0, 0) * Y(0, 1,candidate_y00)

        error = abs(estimated_Y00 - candidate_y00)
        print(
        "[i] trying Y(0, 0) = %s, estimated Y(0, 0) is %s with error: %s" % (
        str(candidate_y00), str(estimated_Y00), str(error)))

        found = error <= max_error

        if estimated_Y00 < candidate_y00:
            current_max = candidate_y00
        else:
            current_min = candidate_y00

        i += 1
    return candidate_y00

#Main e altre funzioni di supporto

In [0]:
def inizializzazione(TotalItems, selectivity):
    Item=[]
    i=0
    while(i <= TotalItems):
        while(i <= TotalItems * selectivity):
            Item.append(1)
            i+=1
        Item.append(0)
        i+=1
    random.shuffle(Item)
    Strategy={}
    c=0
    while(c < TotalItems):
        Strategy[c]=[(0,0)]
        c+=1
    #print(Strategy)
    return Item, Strategy


def min2(Y,n,Strategy):

    app=Strategy.copy()
    lower=[]
    while len(lower) < n:
        low=99999
        for key in app:
            if (Y[app[key][0]]<low):
                low=Y[app[key][0]]
                chiave=key
        lower.append(chiave)
        del app[chiave]
    return lower





# Inizio MAIN

def main():

    Item, Strategy = inizializzazione(TotalItems, selectivity)
    Y0=Y00()
    l=[]
    y={}

    #u=Item.copy()
    app=[]

    #aggiorno elenco delle y note con i nuovi punti della strategia
    for key in Strategy:
        if(not Strategy[key] in app):
            app.append(Strategy[key])

    for ap in app:
        if(not ap[0] in y):
            y[ap[0]]=Y(ap[0][0], ap[0][1], Y0)

    fasi=0
    domande=0
    while(len(l)<K):
        fasi+=1
        I2=min2(y,K-len(l),Strategy)
        cq={}

        for i in I2:
            n1=M1-Strategy[i][0][0]
            n2=M2-Strategy[i][0][1]
            cq[i] =min(n1,n2)
            domande+=cq[i]

        for i in cq:
            c=0
            while(c<cq[i]):
                #simulo crowdsourcing
                if(random.random()>errorRate):
                    if(Item[i]==1):
                        a=Strategy[i][0][0]+1
                        b=Strategy[i][0][1]
                    else:
                        a = Strategy[i][0][0]
                        b = Strategy[i][0][1]+1
                    Strategy[i]=[(a,b)]
                else:
                    if (Item[i] == 1):
                        a = Strategy[i][0][0]
                        b = Strategy[i][0][1]+1
                    else:
                        a = Strategy[i][0][0]+1
                        b = Strategy[i][0][1]
                    Strategy[i] = [(a, b)]
                c+=1
        for i in cq:
            if rectangular(Strategy[i][0][0],Strategy[i][0][1])==1:
                l.append(i)
                del(Strategy[i])
            else:
                if rectangular(Strategy[i][0][0],Strategy[i][0][1])==0:
                    del(Strategy[i])
                else:
                    if not Strategy[i][0] in y:
                        y[Strategy[i][0]]=Y(Strategy[i][0][0], Strategy[i][0][1], Y0)

    #print("oggetti")
    uni=0
    print("gli elementi selezionati sono :")
    for p in l:
        if(Item[p]==1):
            uni+=1
        
        print(p,Item[p])

    accuracy=uni/float(len(l))
    print("accuracy: "+ str(accuracy)+"\n")
    print("risultato ottenuto in:\n"+"\tfasi: "+str(fasi)+"\n"+"\tdomande:"+str(domande) )

In [0]:
import random

M1 = 10
tresh1=0.5
tresh2=0.3
M=20
M2 = 10
TotalItems=1000000
K = 15
#Y0 = 30
errorRate = 0.35
selectivity = 0.2

In [12]:
main()

[i] trying Y(0, 0) = 250.0, estimated Y(0, 0) is 200.558385822 with error: 49.4416141778
[i] trying Y(0, 0) = 125.0, estimated Y(0, 0) is 106.202810073 with error: 18.7971899274
[i] trying Y(0, 0) = 62.5, estimated Y(0, 0) is 57.8696350144 with error: 4.63036498564
[i] trying Y(0, 0) = 31.25, estimated Y(0, 0) is 31.6078547886 with error: 0.357854788594
[i] trying Y(0, 0) = 46.875, estimated Y(0, 0) is 45.2038191068 with error: 1.67118089324
[i] trying Y(0, 0) = 39.0625, estimated Y(0, 0) is 38.4539423342 with error: 0.608557665787
[i] trying Y(0, 0) = 35.15625, estimated Y(0, 0) is 35.0363869298 with error: 0.119863070206
[i] trying Y(0, 0) = 33.203125, estimated Y(0, 0) is 33.3235195702 with error: 0.120394570221
[i] trying Y(0, 0) = 34.1796875, estimated Y(0, 0) is 34.1813406249 with error: 0.00165312493009
gli elementi selezionati sono :
(5, 1)
(1, 1)
(13, 1)
(15, 1)
(20, 1)
(23, 1)
(28, 1)
(30, 0)
(35, 0)
(42, 1)
(47, 1)
(59, 1)
(60, 1)
(64, 1)
(68, 1)
accuracy: 0.866666666667

ri

###vari grafici tabelle e risultati ottenuti si potrebbe mettere anche lo script lanciato su azure

#Scenari alternativi , parte 2.0