# Paradoxe des anniversaires

Il y a au maximum 366 jours dans une année (bissextile).

Dans un groupe de $n$ personnes, la probabilité que deux personnes aient la même date anniversaire dépasse $1/2$ dès que $n \geq 23$.

On se propose de vérifier ce "paradoxe" en utilisant des **listes d'entiers**.

## générer une liste aléatoire de n entiers compris entre 1 et 366

On rappelle que le module random contient une méthode randint(a,b) qui retourne un nombre entier aléatoire compris entre a et b.

Compléter le code de la fonction genere_list(n) ci-dessous

In [8]:
from random import randint

def genere_list(n):
    ''' retourne un tableau de longeur n, 
    contenant des entiers choisis aléatoirement entre 1 et 366 inclus'''
    t = [0] * n  
    for i in range (n):
        t[i] = randint(1,366)
    return t


### OU BIEN

In [9]:
def genere_list(n):
    ''' retourne un tableau de longeur n, 
    contenant des entiers choisis aléatoirement entre 1 et 366 inclus'''
    return [randint(1,366) for i in range (n)]

Compléter le code de la cellule suivante aux endroits indiqués `###`

In [10]:
def detecte_doublon(t):
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    for i in range(1, len(t)):
        for j in range(i):
            if t[i] == t[j]:
                return True
    return False


**Tester la fonction,** sur différents exemples bien choisis

In [11]:
detecte_doublon([1,2,3,4,5])

False

In [12]:
detecte_doublon([1,1,2,3,4])

True

In [13]:
detecte_doublon([1,2,3,4,4])

True

In [14]:
detecte_doublon([1,2,3,4,1])

True

Pour évaluer la **rapidité d'exécution** de cette fonction, on va la tester "dans le pire des cas"
* pour un tableau "grand"
* qui ne contient pas de doublon

In [15]:
from time import perf_counter
t_test = [i for i in range(1,367)]  ###des valeurs de 1 à 366

start = perf_counter() # début du chrono
detecte_doublon(t_test)
end = perf_counter()   # fin du chrono
print('test effectué en', (end-start)*1000,'ms' )

test effectué en 4.203162999999677 ms


# Estimation de la probabilité de doublon lorsque n=23

In [16]:
def evalue_proba(n, taille):
    '''n : nombre de valeurs contenues dans une liste de l'échantillon
    taille : nombre total de liste générées dans l'échantillon
    
    La fonction retourne la fréquence des doublons dans un échantillon de taille listes contenant n valeurs chacunes '''
    nb_doublons = 0
    for i in range(taille):
        t = genere_list(n)
        if detecte_doublon(t):
            nb_doublons+=1
    return nb_doublons/taille

In [17]:
evalue_proba(23,1000)

0.483

# Trier le tableau avant de tester les doublons

Il est possible d'améliorer la rapidité de detecte_doublon si le tableau est trié.

On peut utiliser pour cela la commande sorted(tab) qui retoune un tableau trié, contenant les même valeurs que tab, sans modifier tab.

In [26]:
def detecte_doublon_tri(tab):
    global interm
    '''t est un tableau d'entiers compris entre 1 et 366

    la fonction renvoie True si le tableau t contient deux fois la même valeur, 
    et False si t ne contient que des valeurs distinctes '''
    t = sorted(tab)             #sorted range dans l'ordre croissant les valeurs de la liste
    interm=perf_counter()
    for i in range(len(t)-1):
        if t[i]==t[i+1]:
            return True
    return False



In [19]:
from random import shuffle      #shuffle melange les valeurs de la liste
t = [1,2,3,4]
shuffle(t)
t

[2, 3, 4, 1]

In [27]:
from time import perf_counter
from random import shuffle

t_test =  [i for i in range(1,367)]
shuffle(t_test)
start = perf_counter() #début du chrono
detecte_doublon_tri(t_test)
end = perf_counter() #fin du chrono
print('test effectué en', (end-start)*1000,'ms' )
print('part 1: ',(interm-start)*1000,'ms')
print('part 2: ',(end-interm)*1000,'ms')

test effectué en 0.12039500006721937 ms
part 1:  0.07703599999331345 ms
part 2:  0.04335900007390592 ms
