Projet n¬∞9 : Paradoxe des anniversaires

---

# Paradoxe des anniversaires : Probabilit√©s, simulations et cryptographie



## 1. Introduction

Le paradoxe des anniversaires est un probl√®me classique de probabilit√© qui montre que notre intuition peut √™tre tromp√©e. Il pose la question suivante :\
**Dans un groupe de personnes, quelle est la probabilit√© que deux d‚Äôentre elles partagent le m√™me anniversaire ?**


Nous allons d‚Äôabord analyser ce paradoxe math√©matiquement afin de comprendre pourquoi la probabilit√© de co√Øncidence augmente si vite avec la taille du groupe.\
Ensuite, nous le simulerons en Python pour visualiser concr√®tement les r√©sultats et comparer th√©orie et pratique.\
Enfin, nous verrons comment ce principe s‚Äôapplique en cryptographie, notamment dans l‚Äô√©tude des collisions de fonctions de hachage.


---

## 2. Mod√©lisation math√©matique

Nous allons calculer la probabilit√© qu‚Äôaucune collision d‚Äôanniversaire n‚Äôait lieu dans un groupe de `n` personnes.

L‚Äôid√©e est de calculer la probabilit√© qu‚Äôaucune collision d‚Äôanniversaire n‚Äôapparaisse dans un groupe de n personnes.

</br>

* La premi√®re personne peut choisir librement parmi les 365 jours :\
**probabilit√© = 1.**

</br>

* La deuxi√®me doit √©viter le jour d√©j√† pris soit :\
**364**\
**‚îÄ‚îÄ‚îÄ**\
**365** 

</br>

* La troisi√®me doit √©viter deux jours soit :\
**363**\
**‚îÄ‚îÄ‚îÄ**\
**365** 

</br>

* Et ainsi de suite, jusqu‚Äô√† la ùëõ-i√®me personne.

</br>

La formule est donc :

$$ P(n) = \prod_{k=0}^{n-1} \left(1 - \frac{k}{365} \right) $$

ou alors en image : 

![alt text](https://raw.githubusercontent.com/Antokkk7/Jupyter-Paradoxe-des-anniversaires/09d6106f6c7d4c37bbed96f89ec28b344059f3f2/modelAnnivMath.jpg "mma")\
*sources : BibM@th, mathix.org & wikipedia*

</br>

La probabilit√© qu‚Äôil y ait **_au moins une collision_** est donc :


**1 - P(n)**


In [None]:
def prob_no_collision(n, days=365):
    prob = 1.0
    for k in range(n):
        prob *= (1 - k / days)
    return prob

def prob_at_least_one_collision(n, days=365):
    return 1 - prob_no_collision(n, days)

---

## 3. Visualisation de la probabilit√©

Pour mieux comprendre le paradoxe, nous allons repr√©senter graphiquement l'√©volution de la probabilit√© (tracer la courbe de la probabilit√©) qu‚Äôau moins deux personnes partagent un anniversaire en fonction de la taille du groupe.


In [None]:
import matplotlib.pyplot as plt

group_sizes = range(1, 101)
probabilities = [prob_at_least_one_collision(n) for n in group_sizes]

plt.figure(figsize=(10, 6))
plt.plot(group_sizes, probabilities, label="Probabilit√© de collision")
plt.axhline(0.5, color='red', linestyle='--', label="Seuil de 50%")
plt.xlabel("Nombre de personnes")
plt.ylabel("Probabilit√©")
plt.title("Paradoxe des anniversaires")
plt.legend()
plt.grid(True)
plt.show()


Ce graphique met en √©vidence :

* 1] Une croissance non lin√©aire de la probabilit√©.

* 2] Le seuil critique autour de 23 personnes o√π la probabilit√© d√©passe 50 %.

* 3] Une probabilit√© proche de 1 d√®s que le groupe atteint une soixantaine de personnes.

Ce graphique nous montre donc parfaitement le caract√®re contre-intuitif du paradoxe :
</br> 
*il ne faut pas un groupe immense pour que les chances de co√Øncidence deviennent tr√®s √©lev√©es.*

---

## 4. Simulation empirique

Nous allons maintenant simuler des groupes de personnes avec des anniversaires al√©atoires et estimer la probabilit√© qu‚Äôau moins deux partagent le m√™me jour.\
</br>
**Principe de la simulation :**
</br>
* 1] On g√©n√®re al√©atoirement un anniversaire pour chaque personne du groupe.

* 2] Si deux personnes obtiennent le m√™me jour, on consid√®re qu‚Äôil y a une collision.

En r√©p√©tant cette exp√©rience un grand nombre de fois (par exemple ici 10‚ÄØ000 essais), on peut estimer la probabilit√© d‚Äôune collision.

In [None]:
import random

def simulate_collision(n, days=365):
    birthdays = set()
    for _ in range(n):
        bday = random.randint(1, days)
        if bday in birthdays:
            return True
        birthdays.add(bday)
    return False

def estimate_collision_probability(n, trials=10000):
    collisions = sum(simulate_collision(n) for _ in range(trials))
    return collisions / trials


Les r√©sultats obtenus par simulation confirment la mod√©lisation math√©matique :\
</br>
La probabilit√© d‚Äôune collision augmente avec la taille du groupe et atteint environ 50‚ÄØ% d√®s 23 personnes.\
</br>
Cette simulation d√©montre le paradoxe des anniversaires et confirme que m√™me sans calculs complexes, une simple simulation al√©atoire permet de mettre en √©vidence ce ph√©nom√®ne contre-intuitif.

---

## 5. Application aux fonctions de hachage

Le paradoxe des anniversaires est utilis√© pour estimer la probabilit√© de collision dans les fonctions de hachage. Pour un hash de `n` bits, une collision devient probable apr√®s environ \( 2^{n/2} \) essais.

Nous allons illustrer cela avec une fonction de hachage comme SHA-256 :
</br>
SHA-256 produit des empreintes de 256 bits.

* L‚Äôespace total est donc de [***2 puissance 256***] valeurs possibles.

* Mais une collision devient probable apr√®s environ [***2 puissance 128***] essais, ce qui est bien plus petit que [***2 puissance 256***].\
(*m√™me si cela reste un gros nombre...*)


In [None]:
import hashlib

def random_string(length=10):
    letters = 'abcdefghijklmnopqrstuvwxyz'
    return ''.join(random.choice(letters) for _ in range(length))

def hash_sha256(s):
    return hashlib.sha256(s.encode()).hexdigest()

def find_hash_collision(trials=100000):
    seen = set()
    for _ in range(trials):
        s = random_string()
        h = hash_sha256(s)
        if h in seen:
            return True
        seen.add(h)
    return False


---

## 6. Conclusion

Le paradoxe des anniversaires montre que les collisions sont plus probables qu‚Äôon ne le pense.\
En cryptographie, cela souligne l‚Äôimportance de la taille des fonctions de hachage suffisamment longues pour √©viter les collisions.

Nous avons vu comment la th√©orie, la simulation et la s√©curit√© informatique sont li√©es par ce paradoxe, dans un groupe de seulement 23 personnes, la probabilit√© qu‚Äôau moins deux partagent le m√™me anniversaire d√©passe d√©j√† 50‚ÄØ% !

De la m√™me mani√®re, pour une fonction de hachage de 
ùëõ bits, nous n'avons pas besoin de ***2ùëõ essais*** pour esp√©rer une collision, mais environ ***‚àö2ùëõ = 2ùëõ/2 essais***.\
Et dans un contexte malveillant, c‚Äôest ce que l'on peut appeller une attaque par anniversaire qui consiste donc √† ne pas explorer toutes les 2ùëõ possibilit√©s pour trouver une s√©rie de caract√®res.

Dans le cas des mots de passe, si une fonction de hachage faible ou trop courte est utilis√©e, un attaquant peut exploiter ce principe pour augmenter ses chances de trouver deux valeurs diff√©rentes produisant le m√™me hash et compromettant ainsi l‚Äôint√©grit√© du syst√®me. 

L‚Äôattaque par anniversaire rappelle donc que la robustesse des algorithmes de hachage n'est pas √† ignorer et l'utilisation de mots de passes √† 128~256 bits comme par exemple :\
***[FEC4B0EB4484B7ECE0A7126662DC4A3E4EB239124645F9A25DDFA5B7DB808290]***\
qui est un mot de passe bien plus s√ªr que :\
***[JP16031996]***\
... est imp√©ratif pour √©viter des vols de donn√©es.
