<a href="https://colab.research.google.com/github/thfruchart/tnsi-2020/blob/master/Chap02/Pb_Anniv_OPTIMISATION.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Paradoxe des anniversaires : ÉLÉMENTS DE CORRECTION



Il y a au maximum 366 jours dans une année (bissextile).

Dans un groupe de $n$ personnes, la probabilité que deux personnes aient la même date anniversaire dépasse $1/2$ dès que $n \geq 23$.

On se propose de vérifier ce "paradoxe" en utilisant des **listes d'entiers**.

## générer une liste aléatoire de n entiers compris entre 1 et 366

On rappelle que le module random contient une méthode randint(a,b) qui retourne un nombre entier aléatoire compris entre a et b.

Compléter le code de la fonction genere_list(n) ci-dessous

In [2]:
from random import randint

def genere_list(n):
    ''' retourne un tableau de longeur n, 
    contenant des entiers choisis aléatoirement entre 1 et 366 inclus'''
    t = [0] * n  # tableau de longueur n, dont les cellules sont initialisées à 0
    for i in range (n):
        t[i] = [randint(1,366) for i in range(n)]

    return t


In [3]:
from random import randint

def genere_list(n):
    ''' retourne un tableau de longeur n, 
    contenant des entiers choisis aléatoirement entre 1 et 366 inclus'''
    return [randint(1,366) for i in range(n)]


In [4]:
genere_list(5)

[217, 237, 112, 206, 18]

In [5]:
genere_list(5)

[51, 265, 356, 7, 267]

In [6]:
def detecte_doublon(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    for i in range(1, len(t)):
        for j in range(i):
            if t[i] == t[j]:
                return True
    return False


In [7]:
detecte_doublon([0,1,2,3,4,0])

True

In [8]:
detecte_doublon([0,1,2,3,4,5,6])

False

In [9]:
detecte_doublon([0,1,2,3,4,5,6,6])

True

In [10]:
from time import perf_counter
t_test = [i for i in range(1,367)]

start = perf_counter()
detecte_doublon(t_test)
end = perf_counter()
print('test effectué en', (end-start)*1000,'ms' )

test effectué en 4.171939000002567 ms


# Estimation de la probabilité de doublon lorsque n=23

In [11]:
def evalue_proba(n, taille):
    '''n : nombre de valeurs contenues dans une liste de l'échantillon
    taille : nombre total de liste générées dans l'échantillon
    
    La fonction retourne la fréquence des doublons dans un échantillon de taille listes contenant n valeurs chacunes '''
    nb_doublons = 0
    for i in range(taille):
        t = genere_list(n)
        if detecte_doublon(t):
            nb_doublons += 1
    return nb_doublons / taille


In [12]:
evalue_proba(23,1000)

0.512

# Trier le tableau avant de tester les doublons

In [13]:
def detecte_doublon_tri(tab):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    t = sorted(tab)
    for i in range(len(t)-1):
        if t[i]==t[i+1]:
            return True
    return False



In [14]:
from random import shuffle
t = [1,2,3,4]
shuffle(t)
t

[2, 4, 1, 3]

In [15]:
from time import perf_counter
from random import shuffle

t_test =  [i for i in range(1,367)]
shuffle(t_test)

start = perf_counter() #début du chrono
detecte_doublon_tri(t_test)
end = perf_counter() #fin du chrono
print('test effectué en', (end-start)*1000,'ms' )

test effectué en 0.41603000001089185 ms


# Améliorer encore l'efficacité de l'algorithme de recherche de doublon ?

Ordre de grandeur de la complexité des algorithmes précédents :
* detecte_doublon : $ O(n^2) $ (quadratique)
* detecte_doublon_tri : $O(n log(n) )$ (à cause du tri)

On peut optimiser davantage, il faudrait écrire un algorithme de recherche de doublons qui :
* ne parcourt qu'une seule fois le tableau
* effectue, pour chaque valeur du tableau, des opérations en temps constant

# En "cochant des cases" dans une liste



Compléter le code manquant à la place des `###`




In [1]:
def detecte_doublon_coche_liste(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    aux = [False for i in range(367)]
    for v in t: 
        if aux[v]: 
            return True
        else :
            aux[v] = True
    return False


In [16]:
detecte_doublon_coche_liste([0,1,2,3,4,0])

True

In [17]:
detecte_doublon_coche_liste([0,1,2,3,4,5])

False

In [18]:
detecte_doublon_coche_liste([0,1,2,3,4,5,6,6])

True

In [19]:
from time import perf_counter
from random import shuffle
t_test =  [i for i in range(1,367)]
shuffle(t_test)

start = perf_counter() #début du chrono
detecte_doublon_coche_liste(t_test)
end = perf_counter() #fin du chrono

print('test effectué en', (end-start)*1000,'ms' )

test effectué en 0.06257600000481034 ms


# En "cochant des cases" dans un dictionnaire

Compléter le code manquant à la place des `###`

In [20]:
def detecte_doublon_coche_dictionnaire(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    d = {} #dictionnaire vide
    for v in t: 
        if v in d : 
            return True
        else :
            d[v] = True 
    return False

In [21]:
detecte_doublon_coche_dictionnaire([0,1,2,3,4,5,0])

True

In [22]:
detecte_doublon_coche_dictionnaire([0,1,2,3,4,5,6])

False

In [23]:
detecte_doublon_coche_dictionnaire([0,1,2,3,4,5,6,6])

True

In [24]:
from time import perf_counter
from random import shuffle
t_test =  [i for i in range(1,367)]
shuffle(t_test)

start = perf_counter() #début du chrono
detecte_doublon_coche_dictionnaire(t_test)
end = perf_counter() #fin du chrono

print('test effectué en', (end-start)*1000,'ms' )

test effectué en 0.07843000003049383 ms


# comparaisons entre les différentes fonctions qui détectent un doublon

Avec `%timeit`

In [25]:
t_test =  [i for i in range(1,367)]
shuffle(t_test)

%timeit(detecte_doublon(t_test))

100 loops, best of 3: 3.97 ms per loop


In [26]:
%timeit(detecte_doublon_tri(t_test))

10000 loops, best of 3: 63.8 µs per loop


In [27]:
%timeit(detecte_doublon_coche_liste(t_test))

10000 loops, best of 3: 29.4 µs per loop


In [28]:
%timeit(detecte_doublon_coche_dictionnaire(t_test))

10000 loops, best of 3: 28.9 µs per loop
