### Pseudo Code de l'algorithme de reservoir sampling

Initialiser un reservoir de taille **k**

**Input** : ième tuple
* Tant que des tuples arrivent : 
    * Si le reservoir n'est pas plein (<k) :
        * ajouter le ième tuple au reservoir
    * Sinon
        * le ième tuple à k/i chances de rentrer dans le reservoir : calculer cette probabilité
             * Si le ième tuple peut rentrer dans le reservoir:
                  * Remplacer un tuple présent dans le reservoir par le ième tuple avec une loi de probabilité uniforme
             * Sinon: 
                  * Ne rien faire (on passe au tuple suivant

### Write a mathematical proof :	the	reservoir includes uniformity drawn tuples


Pour i = k , la probabilité que le tuple i rentre dans le reservoir est de $$\frac{k}{i} = 1$$

En admettant que nos i premiers tuples ait été ajoutés au réservoir avec une probabilité **k/i**




Le tuple à i+1 aura une probabilité de **k/i+1** d'être choisi tandis que chaque tuple du reservoir à **1/k** chances d'être retiré.

La probabilité que le tuple i+1 remplace un tuple i du reservoir est de $$\frac{k}{i+1} * \frac{1}{k} = \frac{1}{i+1}$$
Donc la probabilité qu'un tuple ne soit pas remplacé est de $$1 - \frac{1}{i+1} = \frac{i}{i+1}$$

Finalement, pour que chaque tuple soit présent dans le reservoir les conditions suivantes doivent être respectées : 
  * Etre choisi pour aller dans le reservoir (k/i)
  * Ne pas être remplacé (i/i+1)
    
La probabilité que le chaque tuple soit dans le reservoir est donc de $$\frac{i}{i+1}*\frac{k}{i} = \frac{k}{i+1}$$

### Simulation en python

In [1]:
from numpy.random import uniform
import numpy as np
from random import *

In [2]:
class Reservoir_sampling:
    def __init__(self, k):
        self.k = k #Taille du réservoir
        self.i = 0  #Index des tuples
        self.reservoir = [] #Le reservoir
    
    ### process
    # params : (int) tuple_i récupéré dans le data_stream
    # process récupère un par un les tuples du data stream puis : 
    # - rempli le réservoir de tuple jusqu'à atteindre sa limite (self.k)
    # - une fois la limite atteinte, le tuple à k/i chance de rentrer dans le reservoir,
    #  puis sa probabilité de remplacer le i_ème index suis une loi uniforme.
    ###
    def process(self, tuple_i): 
        if len(self.reservoir)<self.k: #Tant que le reservoir n'est pas rempli
            self.reservoir.append(tuple_i) #on ajoute le nouveau tuple
            print('adding values ',self.reservoir)
        else: #Le reservoir est plein,
            add = np.random.uniform()
            if add<(self.k/self.i): # Le tuple à k/i chance de rentrer
                #  puis sa probabilité de remplacer le i_ème index suis une loi uniforme entre 0 et k
                # Note : on réutilise la probabilité déjà calculée avec "add"
                index = int(add*self.i)
                print('Adding tuple ', tuple_i, ' replacing tuple ', self.reservoir[index], ' at index ', index)
                self.reservoir[index] = tuple_i
                print(' new_reservoir ',self.reservoir)
        self.i+=1
                

In [4]:
k=10 #taille du réservoir
res = Reservoir_sampling(k) #notre réservoir
tuple_i = []

#liste de initialisée aléatoirement entre 0 et 100
for t in range(100):
    tuple_i.append(randint(0, 100))
    
print(tuple_i)

stream = 0
while stream < len(tuple_i): #On envoi les tuples un par un
    res.process(tuple_i[stream])
    stream+=1
print('reservoir final ' ,res.reservoir)

[13, 6, 45, 9, 38, 26, 71, 44, 100, 26, 8, 8, 22, 96, 53, 12, 9, 27, 75, 31, 49, 90, 59, 92, 45, 28, 0, 30, 8, 70, 38, 30, 14, 93, 32, 62, 26, 10, 99, 0, 61, 92, 30, 61, 78, 31, 9, 70, 44, 47, 5, 89, 23, 38, 83, 50, 4, 13, 54, 100, 48, 71, 48, 31, 9, 91, 47, 60, 9, 51, 71, 75, 39, 16, 66, 33, 98, 60, 3, 9, 13, 89, 3, 90, 98, 27, 23, 84, 53, 23, 12, 84, 13, 77, 80, 42, 51, 17, 13, 65]
adding values  [13]
adding values  [13, 6]
adding values  [13, 6, 45]
adding values  [13, 6, 45, 9]
adding values  [13, 6, 45, 9, 38]
adding values  [13, 6, 45, 9, 38, 26]
adding values  [13, 6, 45, 9, 38, 26, 71]
adding values  [13, 6, 45, 9, 38, 26, 71, 44]
adding values  [13, 6, 45, 9, 38, 26, 71, 44, 100]
adding values  [13, 6, 45, 9, 38, 26, 71, 44, 100, 26]
Adding tuple  8  replacing tuple  71  at index  6
 new_reservoir  [13, 6, 45, 9, 38, 26, 8, 44, 100, 26]
Adding tuple  22  replacing tuple  44  at index  7
 new_reservoir  [13, 6, 45, 9, 38, 26, 8, 22, 100, 26]
Adding tuple  96  replacing tuple  1