# Ερώτηση 1

<!--
Answers for 1. and 2. [here](https://florian.github.io/reservoir-sampling/#appendix).
Answers for 3 [here](https://blog.plover.com/prog/weighted-reservoir-sampling.html#goodpart)
-->

## Α 1
Η βασική αλλαγή που πρέπει να γίνει στον αλγόριθμο Reservoir Sampling  που έιδαμε στο μάθημα προκειμένου να 
κάνει δειγματοληψία $Κ$ αντικειμένων είναι να αυξήσουμε το μέγεθος των αντικειμένων που κρατάμε στο reservoir  
σε $Κ$, και το αρχικοποιόυμε ωστε να περιέχει τα $Κ$ πρώτα αντικείμε της ροής.  

Όταν επεξεργαζόμαστε οποιόδήποτε $i-οστό$ στοιχέιο που ακολουθέι μέτα τα $Κ$ πρώτα, δηλαδή  $i>k$, θέλουμε  
να το προσθέτουμε στο reservoir $K$ στοιχείων με πιθανότητα $ \dfrac{K}{i} $ . Στην περίπτωση αυτό επιλεγέι  
τότε το προσθέτουμε στο reservoir αντικαθιστόντας κάποιο υπάρχον με πιθανότητα $ \dfrac{1}{K}$.  

Στην συνέχεια θα αποδείξουμε οτι ο παραπάνω αλγόριθμος παράγει ένα ομοιόμορφα τυχαίο δείγμα με επαγωγή.  

## Α 2
** Βάση επαγωγής: ** H περίπτωση που $n = k$ όπου $n$ είναι ο συνολικός αριθμός των στοιχείων στην ροή  
και $k$ είναι το μέγεθος του reservoir, ο αλγόριθμος λέιτουγεί τετριμένα. (Πρόσθέτουμε τα $n$ στοιχεία στο  
reservoir).  

** Υπόθεση: ** Ο αλγόριθμος επιλέγει κάθε στοιχείο με την ίδια πιθάνοτητα $ \dfrac{k}{n}$ για $k < n$.  

** Επαγωγικό Βήμα: ** Ο αλγόριθμος το $n+1$ στοιχείο της ροής με πιθανότητα $\dfrac{k}{n+1}$ και όλα τα 
υπόλοιπα στοιχέια εχουν την πιθανότητα να βρίσκονται στο reservoir με πιθανότητα $\dfrac{k}{n}$.  

Για να αποδειχθεί το παραπάνω πρέπει να υπολογίσουμε τις παρακάτω πιθανότητες για το στοιχείο $n + 1$:  

$P("Το\ στοιχέιo\ ΔΕΝ\ επιλέγεται") = P(A) = 1-\dfrac{k}{n+1} = \dfrac{n+1−k}{n+1}$  
$P("Το\ στοιχέιo\ επιλέγεται") = P(B) = \dfrac{k}{n+1}$      
$P("Το\ στοιχέιo\ δεν\ μπαινει\ στο\ reservoir") = P(C) = 1-\dfrac{k}{n} = \dfrac{k-1}{k}$  

Επομένως η πιθανότητα $P(C)$ να επιλεγέι ένα στοιχείο $i$ και να μήν μπει στο reservoir είναι:  

$$P(D) = P(B \bigcap  C) = \dfrac{k}{n+1} ∗ \dfrac{k−1}{k} = \dfrac{k−1}{n+1}$$

και η πιθανότητα να μείνει ενα στοιχείο στον reservoir είναι:

$$P(E) = P(Α) + P(D) = \dfrac{n+1−k}{n+1} + \dfrac{k−1}{n+1} = \dfrac{n}{n+1}\ (ανεξάρτητα\ ενδεχόμενα)$$ 

Τέλος η πιθανότητα ενα στοιχείνο $n + 1$ να επιλεγέι και να καταλήξει στο reservoir απο την υπόθεση είναι:

$$P(E \bigcap  "κάποιο\ προηγούμενο\ στοιχείο\ να\ επιλεγεί") = \dfrac{n}{n+1} ∗ \dfrac{k}{n} = \dfrac{k}{n+1}$$


In [14]:
import random
import re
import heapq

# Generating data functions
def generate_data(file, n):
    f = open(file, 'w')
    for i in range(n):
        number = random.randrange(0,100)
        if (i%10) == 9: 
            f.write(str(number) + '\n')
        else:
            f.write(str(number) + ', ')
    f.close()

def txt_to_array(file):
    f = open(file, 'r')
    txt_data = f.read()
    # [-1] to remove the last empty array cell
    result = re.split(', |\n', txt_data)[:-1]
    f.close()
    return result

# Two reservoir sampling implementations
def classic_reservoir_sampling(numbers_stream, k):
    reservoir = list()
    for i, number in enumerate(numbers_stream):
        if i < k:
            reservoir.append(number)
        else: 
            random_index = random.randint(0, i)
            if random_index < k:
                reservoir[random_index] = number
    return reservoir

def reservoir_sampling_oneliner(stream: list, k: int):
    return heapq.nlargest(k, stream, key=lambda x: random.random())

# Init
file_path = 'ask1_data.txt'
generate_data(file_path, 1000)
numbers_stream = txt_to_array(file_path)

for i in range(1, 11):
    result = classic_reservoir_sampling(numbers_stream, 5)
    print("%d: %s" % (i, result))


1: ['95', '86', '60', '83', '79']
2: ['45', '52', '42', '59', '98']
3: ['46', '32', '24', '96', '13']
4: ['35', '99', '52', '82', '46']
5: ['79', '7', '69', '56', '68']
6: ['85', '77', '61', '37', '36']
7: ['27', '31', '32', '81', '27']
8: ['83', '55', '48', '24', '19']
9: ['6', '50', '89', '40', '38']
10: ['9', '10', '45', '37', '33']


# Weighted Reservoir Sampling

The algorithm works as follows. First observe that another way to solve the unweighted reservoir sampling is to assign to each element a random id R between 0 and 1 and incrementally (say with a heap) keep track of the top k ids. Now let's look at weighted version, and let's say the i-th element has weight w_i. Then, we modify the algorithm by choosing the id of the i-th element to be R^(1/w_i) where R is again uniformly distributed in (0,1).


In [15]:
# Generating weigthed data functions.

def generate_weighted_data(file, n):
    f = open(file, 'w')
    for i in range(n):
        number = random.randrange(0,100)
        weight = random.uniform(0,1)
        string = str(number) +':'+ str(weight)
        if (i%5) == 4: 
            f.write(string + '\n')
        else:
            f.write(string + ', ')
    f.close()

def weighted_txt_to_array(file):
    f = open(file, 'r')
    txt_data = f.read()
    # [-1] to remove the last empty array cell
    result = re.split(', |\n', txt_data)[:-1]
    f.close()
    return result


In [16]:
file_path = 'weighted_data.txt'
generate_weighted_data(file_path, 1000)
weighted_array = weighted_txt_to_array(file_path)

def weighted_reservoir_sampling(numbers_stream, k):
    reservoir = list()
    for i, number in enumerate(numbers_stream):
        if i < k:
            w = random.uniform(0,1)
            reservoir.append((w, number))
        else:
            heapq.heapify(reservoir)
            threshold = heapq.nsmallest(1, reservoir)
            # TODO: change weight
            w = random.uniform(0,1)
            if w > threshold[0][0]:
                heapq.heapreplace(reservoir, (w, number))
    return reservoir


for i in range(1, 11):
    result = weighted_reservoir_sampling(numbers_stream, 3)
    print("%d: %s" % (i, result))

1: [(0.9972520237151015, '56'), (0.9985464568132316, '15'), (0.9977130109976172, '38')]
2: [(0.9979148505488608, '12'), (0.9991376397966497, '24'), (0.9986284375497358, '86')]
3: [(0.9928831966679494, '50'), (0.9953637622299327, '46'), (0.9945618011091835, '23')]
4: [(0.9986697433528486, '46'), (0.9992940141689104, '68'), (0.9999133193321236, '93')]
5: [(0.9981542445230902, '99'), (0.9993300898845767, '57'), (0.9984790106840231, '81')]
6: [(0.9977284589520371, '48'), (0.9988714674727966, '86'), (0.9981146253585489, '52')]
7: [(0.9951758214427074, '27'), (0.9966223049374212, '65'), (0.9981521051274501, '14')]
8: [(0.9963761928807277, '86'), (0.9981060986709168, '58'), (0.9970266237553045, '71')]
9: [(0.9986469006146518, '89'), (0.9993983680308022, '97'), (0.9994821713752523, '4')]
10: [(0.9963214093448665, '95'), (0.9999248083287097, '90'), (0.9996376435139169, '55')]
