<h1>Nombre de participants</h1>

<h2>Présentation</h2>

Soit un événement (sportif par exemple) avec $N$ participants: chaque participant a un numéro de carte d'invitation (ou un numéro de dossard). On prend un échantillon de $n<N$ personnes et on relève leur numéro $x_i$ (avec $i\in[1,n]$). On cherche à estimer $N$ à partir des valeurs des $x_i$.

On peut montrer que l'espérance du maximum d'un échantillon est:
$E(\textrm{max } x_i)=\frac{n.(N+1)}{n+1}$ d'où: 
<table style="width:200px"><tr><td>$N= \frac{n+1}n.E(\textrm{max } x_i)-1$</td></tr></table>

<br>
Cette formule a le bon goût de vérifier deux propriétés essentielles:
<ul>
<li> si on tire comme échantillon $[1,2,3,\dots,n]$, on obtient $N=\frac{n+1}n.n-1=n$: l'estimation de $N$ n'est pas inférieure à la plus grande valeur de l'échantillon (toutes les formules d'estimation de l'espérance ne vérifie pas cette propriété triviale !)
<li> si on tire comme échantillon tout l'ensemble $[1,2,3,\dots,N]$, on obtient $N=\frac{N+1}N.N-1=N$.
</ul>


<br>
Faire plusieurs simulations numériques en prélevant des échantillons de 2%, 5%, 10% et 20% de la population. Présenter les résultats sous forme d'histogrammes pour montrer la probabilité de l'écart (en %) entre la taille réelle de la population et son estimation.<br>

Pour prélever (sans remplacement) un échantillon de taille $n$ dans une population de taille $N$,
on utilise la procédure suivante:
<ul>
<li> On considère le premier élément de la population
<li> On le prélève avec une probabilité de $\frac nN$ pour le mettre dans l'échantillon
<li> Si l'élément est effectivement sélectionné, alors on diminue $n$ de 1.
<li> On diminue $N$ de 1
<li> On recommence avec l'élément suivant de la population jusqu'à ce que la taille de l'échantillon soit $n$.
</ul>

<h1>Solution</h1>

In [1]:
open Random;;
Random.self_init;;
#use "topfind";;
#require "plplot";;
open Plplot;;
module P = Plot;;
let couleurs_list = [[ 0;255;255;255]; (*`white*)
                     [ 1;  0;  0;  0]; (*`black*)
                     [ 2;  0;  0;255]; (*`blue*)
                     [ 3;255;  0;  0]; (*`red*)
                     [ 4;165; 42; 42]; (*`brown*)
                     [ 5;  0;  0;  0]; [ 6;  0;  0;  0]; [ 7;  0;  0;  0]; [ 8;  0;  0;  0]; [ 9;  0;  0;  0]; 
                     [10;200;200;200]; (*`gray*)
                     [11;  0;255;255]; (*`light_blue*)
                     [12;  0;255;  0]; (*`green*)
                     [13;255;255;  0]; (*`yellow*)
                     [14;255;  0;255]; (*`pink*)
                     [15;160;  0;213]; (*`purple*) ]
let rec loop couleurs_list = match couleurs_list with
    | [n;r;g;b]::tl -> plscol0 n r g b; loop tl
    | _ -> ();;
let couleurs = (fun () -> plscolbg 255 255 255; loop couleurs_list)
let initialisation filename xmin xmax ymin ymax = 
        P.init (xmin, ymin) (xmax, ymax) `greedy (`svg `core) ~filename:(filename^".svg") ~pre:couleurs
let xlabel texte = P.text_outside `black (`bottom 0.5) 3. texte
let ylabel texte = P.text_outside `black (`left 0.5) 5. texte 
let label texte_x texte_y titre = P.label texte_x texte_y titre

- : unit = ()
Findlib has been successfully loaded. Additional directives:
  #require "package";;      to load a package
  #list;;                   to list the available packages
  #camlp4o;;                to load camlp4 (standard syntax)
  #camlp4r;;                to load camlp4 (revised syntax)
  #predicates "p,q,...";;   to set these predicates
  Topfind.reset();;         to force that packages will be reloaded
  #thread;;                 to enable threads

- : unit = ()


/usr/lib/ocaml/plplot: added to search path
/usr/lib/ocaml/plplot/plplot.cma: loaded


In [2]:
let range debut fin step =
   let rec range i acc =
     if i>=fin then List.rev acc
     else range (i+step) (i::acc) in
   range debut [];;

In [3]:
let shuffle d =
    let nd = List.map (fun c -> (Random.bits (), c)) d in
    let sond = List.sort compare nd in
    List.map snd sond;;

In [4]:
let array_min arr = Array.fold_left min arr.(0) arr;;
let array_max arr = Array.fold_left max arr.(0) arr;;

In [5]:
let histogramme valeurs limites =
    let nbre_val = Array.length valeurs in
    let nbre_bin = Array.length limites - 1 in
    let bins = Array.make nbre_bin 0. in
    let rec loop num_val =
         if num_val = nbre_val 
         then begin
             for i = 0 to nbre_bin -1 do
                 bins.(i)<-bins.(i)/.(float_of_int nbre_val)
             done;
        end else begin
            let valeur = valeurs.(num_val) in
            let i=ref 0 in
            while !i < (nbre_bin-1) && limites.(!i)<valeur do incr i;done;
            bins.(!i)<-bins.(!i)+.1.;
            loop (num_val+1);
            end in
     loop 0;
     bins;;

In [6]:
let array_pourcentages=[|2;5;10;20|];;
let estimation_N pourcentage_preleve =
    let n = 100 + Random.int 900 in
    let pop = range 0 n 1 in
    let population = Array.of_list (shuffle pop) in
    let n'=(pourcentage_preleve*n)/100 in

    let echantillon=Array.make n 0 in
    
    let rec loop k j new_n' new_n =
        if k<n then begin
            let proba = float_of_int new_n /. (float_of_int new_n') in
            if Random.float 1. < proba
            then begin
                echantillon.(j)<-population.(k);
                loop (k+1) (j+1) (new_n'-1) (new_n-1);
                end
            else loop (k+1) j new_n' (new_n-1) 
        end in
    loop 0 0 n' n;
    let maximum = array_max echantillon in
    let estimation = float_of_int ((n'+1)*maximum)/.(float_of_int n')-.1. in
    let erreur = (estimation -. (float_of_int n))/.(float_of_int n)*.100. in
    erreur;;

let essais pourcentage_preleve =
    let nbre_essais=10*1000 in
    let erreur = Array.init nbre_essais (fun _ -> estimation_N pourcentage_preleve) in
    erreur;;

In [8]:
    plsdev ("png");
    plsfnam("graph.png");
    plscolbg 255 255 255;
    plinit ();
    plssub 2 2;
    plscol0 1 0 0 0;
     
    let limites = Array.of_list (List.map float_of_int (range (-100) 50 1)) in (* nbre de piquets *)
    let xs = Array.of_list (List.map float_of_int (range (-100) 49 1)) in (* nbre d'intervalle *)
    for i = 0 to Array.length array_pourcentages - 1 do
        let p = array_pourcentages.(i) in
        let ys = histogramme (essais p) limites in

        pladv 0; (*advance next sub-page*)
        plvsta (); (*select standard viewport*)
        plsvpa 30. 130. 20. 80.; (*position of sub-page*)
        plwind (-100.) 50. 0. 0.5; (*limit of the sub-page*)

        plcol0 1; (* bordure cadre*)
        plbox "bcnti" 0. 0 "bcntvi" 0. 0;
        plcol0 1; (*couleur des pts*)
        plpoin xs ys 1;
        plbin xs ys [PL_BIN_DEFAULT];
        pllab "Ecart entre N et l’estimation de N (en %)" "Probabilité" ("Taille de l’échantillon =\n "^(string_of_int p)^"% de la population")
    done;
    plend ();;

<img src="graph.png" width=700 />