# Ερώτηση 1

<!--
Answers for 1. and 2. [here](https://florian.github.io/reservoir-sampling/#appendix).
Answers for 3 [here](https://blog.plover.com/prog/weighted-reservoir-sampling.html#goodpart)
-->

## Α 1
Η βασική αλλαγή που πρέπει να γίνει στον αλγόριθμο Reservoir Sampling  που έιδαμε στο μάθημα προκειμένου να 
κάνει δειγματοληψία $Κ$ αντικειμένων είναι να αυξήσουμε το μέγεθος των αντικειμένων που κρατάμε στο reservoir  
σε $Κ$, και το αρχικοποιόυμε ωστε να περιέχει τα $Κ$ πρώτα αντικείμε της ροής.  

Όταν επεξεργαζόμαστε οποιόδήποτε $i-οστό$ στοιχέιο που ακολουθέι μέτα τα $Κ$ πρώτα, δηλαδή  $i>k$, θέλουμε  
να το προσθέτουμε στο reservoir $K$ στοιχείων με πιθανότητα $ \dfrac{K}{i} $ . Στην περίπτωση αυτό επιλεγέι  
τότε το προσθέτουμε στο reservoir αντικαθιστόντας κάποιο υπάρχον με πιθανότητα $ \dfrac{1}{K}$.  

Στην συνέχεια θα αποδείξουμε οτι ο παραπάνω αλγόριθμος παράγει ένα ομοιόμορφα τυχαίο δείγμα με επαγωγή.  

## Α 2
** Βάση επαγωγής: ** H περίπτωση που $n = k$ όπου $n$ είναι ο συνολικός αριθμός των στοιχείων στην ροή  
και $k$ είναι το μέγεθος του reservoir, ο αλγόριθμος λέιτουγεί τετριμένα. (Πρόσθέτουμε τα $n$ στοιχεία στο  
reservoir).  

** Υπόθεση: ** Ο αλγόριθμος επιλέγει κάθε στοιχείο με την ίδια πιθάνοτητα $ \dfrac{k}{n}$ για $k < n$.  

** Επαγωγικό Βήμα: ** Ο αλγόριθμος το $n+1$ στοιχείο της ροής με πιθανότητα $\dfrac{k}{n+1}$ και όλα τα 
υπόλοιπα στοιχέια εχουν την πιθανότητα να βρίσκονται στο reservoir με πιθανότητα $\dfrac{k}{n}$.  

Για να αποδειχθεί το παραπάνω πρέπει να υπολογίσουμε τις παρακάτω πιθανότητες για το στοιχείο $n + 1$:  

$P("Το\ στοιχέιo\ ΔΕΝ\ επιλέγεται") = P(A) = 1-\dfrac{k}{n+1} = \dfrac{n+1−k}{n+1}$  
$P("Το\ στοιχέιo\ επιλέγεται") = P(B) = \dfrac{k}{n+1}$      
$P("Το\ στοιχέιo\ δεν\ μπαινει\ στο\ reservoir") = P(C) = 1-\dfrac{k}{n} = \dfrac{k-1}{k}$  

Επομένως η πιθανότητα $P(C)$ να επιλεγέι ένα στοιχείο $i$ και να μήν μπει στο reservoir είναι:  

$$P(D) = P(B \bigcap  C) = \dfrac{k}{n+1} ∗ \dfrac{k−1}{k} = \dfrac{k−1}{n+1}$$

και η πιθανότητα να μείνει ενα στοιχείο στον reservoir είναι:

$$P(E) = P(Α) + P(D) = \dfrac{n+1−k}{n+1} + \dfrac{k−1}{n+1} = \dfrac{n}{n+1}\ (ανεξάρτητα\ ενδεχόμενα)$$ 

Τέλος η πιθανότητα ενα στοιχείνο $n + 1$ να επιλεγέι και να καταλήξει στο reservoir απο την υπόθεση είναι:

$$P(E \bigcap  "κάποιο\ προηγούμενο\ στοιχείο\ να\ επιλεγεί") = \dfrac{n}{n+1} ∗ \dfrac{k}{n} = \dfrac{k}{n+1}$$


In [82]:
import random
import re
import heapq

# Generating data functions
def generate_data(file, n):
    f = open(file, 'w')
    for i in range(n):
        number = random.randrange(0,100)
        if (i%10) == 9: 
            f.write(str(number) + '\n')
        else:
            f.write(str(number) + ', ')
    f.close()

def txt_to_array(file):
    f = open(file, 'r')
    txt_data = f.read()
    # [-1] to remove the last empty array cell
    result = re.split(', |\n', txt_data)[:-1]
    f.close()
    return result

# Two reservoir sampling implementations
def classic_reservoir_sampling(numbers_stream, k):
    reservoir = list()
    for i, number in enumerate(numbers_stream):
        if i < k:
            reservoir.append(number)
        else: 
            random_index = random.randint(0, i)
            if random_index < k:
                reservoir[random_index] = number
    return reservoir

def reservoir_sampling_oneliner(stream: list, k: int):
    return heapq.nlargest(k, stream, key=lambda x: random.random())

# Init
file_path = 'ask1_data.txt'
generate_data(file_path, 1000)
numbers_stream = txt_to_array(file_path)

for i in range(1, 11):
    result = classic_reservoir_sampling(numbers_stream, 5)
    print("%d: %s" % (i, result))


1: ['85', '17', '81', '74', '85']
2: ['5', '26', '47', '20', '22']
3: ['80', '11', '13', '20', '23']
4: ['39', '12', '77', '92', '52']
5: ['6', '70', '9', '64', '93']
6: ['34', '34', '80', '76', '35']
7: ['81', '54', '98', '56', '60']
8: ['26', '63', '19', '91', '5']
9: ['36', '14', '25', '21', '69']
10: ['83', '40', '8', '17', '44']


# Weighted Reservoir Sampling

The algorithm works as follows. First observe that another way to solve the unweighted reservoir sampling is to assign to each element a random id R between 0 and 1 and incrementally (say with a heap) keep track of the top k ids. Now let's look at weighted version, and let's say the i-th element has weight w_i. Then, we modify the algorithm by choosing the id of the i-th element to be R^(1/w_i) where R is again uniformly distributed in (0,1).


In [108]:
file_path = 'weighted_data.txt'

def weighted_reservoir_sampling(numbers_stream, k):
    reservoir = list()
    for i, number in enumerate(numbers_stream):
        if i < k:
            w = random.uniform(0,1)
            reservoir.append((w, number))
        else:
            heapq.heapify(reservoir)
            threshold = heapq.nsmallest(1, reservoir)
            # TODO: change weight
            w = random.uniform(0,1)
            if w > threshold[0][0]:
                heapq.heapreplace(reservoir, (w, number))
    return reservoir

for i in range(1, 11):
    result = weighted_reservoir_sampling(numbers_stream, 3)
    print("%d: %s" % (i, result))


1: [(0.9956806500200418, '61'), (0.9979684446002092, '37'), (0.9973349780929943, '12')]
2: [(0.9943896612141792, '60'), (0.99792166704945, '73'), (0.9983649041726742, '87')]
3: [(0.9974783848399961, '44'), (0.9986991052214076, '51'), (0.9974902297990649, '49')]
4: [(0.9960438864181268, '59'), (0.9986439914430465, '32'), (0.9968729165432824, '61')]
5: [(0.9972509310831236, '32'), (0.9978174453652138, '51'), (0.9979792263704212, '27')]
6: [(0.9974584624350875, '2'), (0.9990830196249656, '65'), (0.9990480056628716, '2')]
7: [(0.9924428834136622, '65'), (0.9952994421355145, '81'), (0.9952356661167634, '66')]
8: [(0.9962031984926526, '53'), (0.9970551360444598, '58'), (0.9994540633977201, '83')]
9: [(0.9976479085655983, '30'), (0.9977100817162262, '95'), (0.9983901959805804, '71')]
10: [(0.9975967631749559, '40'), (0.9987584203526247, '81'), (0.9984206974473042, '26')]
