# Ερώτηση 1

<!--
Answers for 1. and 2. [here](https://florian.github.io/reservoir-sampling/#appendix).
Answers for 3 [here](https://blog.plover.com/prog/weighted-reservoir-sampling.html#goodpart)
-->

## Α 1
Η βασική αλλαγή που πρέπει να γίνει στον αλγόριθμο Reservoir Sampling  που έιδαμε στο μάθημα προκειμένου να 
κάνει δειγματοληψία $Κ$ αντικειμένων είναι να αυξήσουμε το μέγεθος των αντικειμένων που κρατάμε στο reservoir  
σε $Κ$, και το αρχικοποιόυμε ωστε να περιέχει τα $Κ$ πρώτα αντικείμε της ροής.  

Όταν επεξεργαζόμαστε οποιόδήποτε $i-οστό$ στοιχέιο που ακολουθέι μέτα τα $Κ$ πρώτα, δηλαδή  $i>k$, θέλουμε  
να το προσθέτουμε στο reservoir $K$ στοιχείων με πιθανότητα $ \dfrac{K}{i} $ . Στην περίπτωση αυτό επιλεγέι  
τότε το προσθέτουμε στο reservoir αντικαθιστόντας κάποιο υπάρχον με πιθανότητα $ \dfrac{1}{K}$.  

Στην συνέχεια θα αποδείξουμε οτι ο παραπάνω αλγόριθμος παράγει ένα ομοιόμορφα τυχαίο δείγμα με επαγωγή.  

## Α 2.
** Βάση επαγωγής: ** H περίπτωση που $n = k$ όπου $n$ είναι ο συνολικός αριθμός των στοιχείων στην ροή  
και $k$ είναι το μέγεθος του reservoir, ο αλγόριθμος λέιτουγεί τετριμένα. (Πρόσθέτουμε τα $n$ στοιχεία στο  
reservoir).  

** Υπόθεση: ** Ο αλγόριθμος επιλέγει κάθε στοιχείο με την ίδια πιθάνοτητα $ \dfrac{k}{n}$ για $k < n$.  

** Επαγωγικό Βήμα: ** Ο αλγόριθμος το $n+1$ στοιχείο της ροής με πιθανότητα $\dfrac{k}{n+1}$ και όλα τα 
υπόλοιπα στοιχέια εχουν την πιθανότητα να βρίσκονται στο reservoir με πιθανότητα $\dfrac{k}{n}$.  

Για να αποδειχθεί το παραπάνω πρέπει να υπολογίσουμε τις παρακάτω πιθανότητες για το στοιχείο $n + 1$:  

$P("Το\ στοιχέιo\ ΔΕΝ\ επιλέγεται") = P(A) = 1-\dfrac{k}{n+1} = \dfrac{n+1−k}{n+1}$  
$P("Το\ στοιχέιo\ επιλέγεται") = P(B) = \dfrac{k}{n+1}$      
$P("Το\ στοιχέιo\ δεν\ μπαινει\ στο\ reservoir") = P(C) = 1-\dfrac{k}{n} = \dfrac{k-1}{k}$  

Επομένως η πιθανότητα $P(C)$ να επιλεγέι ένα στοιχείο $i$ και να μήν μπει στο reservoir είναι:  

$$P(D) = P(B \bigcap  C) = \dfrac{k}{n+1} ∗ \dfrac{k−1}{k} = \dfrac{k−1}{n+1}$$

και η πιθανότητα να μείνει ενα στοιχείο στον reservoir είναι:

$$P(E) = P(Α) + P(D) = \dfrac{n+1−k}{n+1} + \dfrac{k−1}{n+1} = \dfrac{n}{n+1}\ (ανεξάρτητα\ ενδεχόμενα)$$ 

Τέλος η πιθανότητα ενα στοιχείνο $n + 1$ να επιλεγέι και να καταλήξει στο reservoir απο την υπόθεση είναι:

$$P(E \bigcap  "κάποιο\ προηγούμενο\ στοιχείο\ να\ επιλεγεί") = \dfrac{n}{n+1} ∗ \dfrac{k}{n} = \dfrac{k}{n+1}$$


In [13]:
import random
import re
import heapq

# Generating data functions
def generate_data(file, n):
    f = open(file, 'w')
    for i in range(n):
        number = random.randrange(0,100)
        if (i%10) == 9: 
            f.write(str(number) + '\n')
        else:
            f.write(str(number) + ', ')
    f.close()

def txt_to_array(file):
    f = open(file, 'r')
    txt_data = f.read()
    # [-1] to remove the last empty array cell
    result = re.split(', |\n', txt_data)[:-1]
    f.close()
    return result

# Two reservoir sampling implementations
def classic_reservoir_sampling(numbers_stream, k):
    reservoir = list()
    for i, number in enumerate(numbers_stream):
        if i < k:
            reservoir.append(number)
        else: 
            random_index = random.randint(0, i)
            if random_index < k:
                reservoir[random_index] = number
    return reservoir

def reservoir_sampling_oneliner(stream: list, k: int):
    return heapq.nlargest(k, stream, key=lambda x: random.random())

file_path = 'ask1_data.txt'
generate_data(file_path, 1000)
numbers_stream = txt_to_array(file_path)

for i in range(1, 11):
    result = classic_reservoir_sampling(numbers_stream, 5)
    print("%d: %s" % (i, result))


1: ['9', '72', '60', '27', '71']
2: ['94', '7', '19', '81', '33']
3: ['65', '18', '67', '3', '64']
4: ['26', '66', '70', '81', '27']
5: ['86', '36', '38', '71', '76']
6: ['67', '21', '83', '86', '86']
7: ['88', '53', '12', '87', '26']
8: ['15', '80', '30', '90', '43']
9: ['46', '15', '44', '33', '96']
10: ['24', '6', '35', '78', '87']


# Weighted Reservoir Sampling

The algorithm works as follows. First observe that another way to solve the unweighted reservoir sampling is to assign to each element a random id R between 0 and 1 and incrementally (say with a heap) keep track of the top k ids. Now let's look at weighted version, and let's say the i-th element has weight w_i. Then, we modify the algorithm by choosing the id of the i-th element to be R^(1/w_i) where R is again uniformly distributed in (0,1).


In [3]:
file_path = 'weighted_data.txt'
# def generate_weighted_data(file, n):
#     f = open(file, 'w')
#     for i in range(n):
#         number = random.randrange(0,100)
#         weight = random.uniform(0,1)
#         string = str(number) +':'+ str(weight)
#         if (i%5) == 4: 
#             f.write(string + '\n')
#         else:
#             f.write(string + ', ')
#     f.close()

# def weighted_txt_to_array(file):
#     f = open(file, 'r')
#     txt_data = f.read()
#     # [-1] to remove the last empty array cell
#     result = re.split(', |\n', txt_data)[:-1]
#     f.close()
#     return result


# generate_weighted_data(file_path, 100)
# weighted_numbers_stream = weighted_txt_to_array(file_path)
# print(weighted_numbers_stream)

# def weighted_reservoir_data(number_stream):
#     heapify(number_stream)
#     for number in number_stream:
#         r = random.uniform(0,1)
#         if 
# import heapq

# test = [2,3,7,4,8,1,4]
# heap = list(heapq.heapify(test))
# k = 5

for number in heap:
    r = random.uniform(0,1)
    if len(heap) < k:
        heapq.heappush(heap, number)
    else:
        if r > 


SyntaxError: invalid syntax (<ipython-input-3-5da6734113d2>, line 43)