## Estimer les chances de gagner à la lotterie : Le [Lotto6/49](https://en.wikipedia.org/wiki/Lotto_6/49)

### Introduction
L'objectif de cet présentation est de calculer les chances de gagner au lotto.
On veut pouvoir répondre aux questions suivantes :
    - Quelle est la probabilité d'avoir le gros lot en ayant acheté un seul ticket?
    - Quelle est la probabilité de gagner le gros lot en ayant acheté 40 tickets différents (ou n'importe quel autre nombre)
    - Quelle est la probabilité d'avoir au moins 5 (ou moins) numéros gagnants sur un seul ticket?

Le lotto6/49 est un jeu de lotterie canadien où les utilisateurs choisissent une combinaison de 6 nombres dans un ensemble de 49 nombres allant de 1 à 49.
Le tirage est sans remise et ils ont la possibilité de remplir plusieurs lignes (jusqu'à 10).
Le premier prix est obtenu par un joueur si les 6 nombres qu'il propose sont tirés. 
Deux autres prix spéciaux de valeur moindre sont accordés aux personnes ayant trouvé les bonnes combinaisons de respectivement 5 et 2 nombres. 

In [52]:
# fonctions pour calculer le nombre de combinaisons 
# possibles et la probabilité de remporter une combinaison juste
def factoriel(n):
    facto = 1
    for i in range(n): 
        facto *= (i+1)
    return facto

def combinaisons(n,k):
    numerateur = factoriel(n)
    denominateur = factoriel(n-k)
    return numerateur/(factoriel(k)*denominateur) 

def probabilite_un_ticket(liste):
    c = combinaisons(49,6)
    p = (1/c)*100
    message = 'La combinaison {0} a {1}% chances de remporter le premier prix.'.format(liste, p)
    return (message)

probabilite_un_ticket([1,2,3,4,5,6])
    

'La combinaison [1, 2, 3, 4, 5, 6] a 7.151123842018516e-06% chances de remporter le premier prix.'

#### Lecture /analyse des données historiques de tirages du loto 6/49 disponibles sur [Kaggle](https://www.kaggle.com/datascienceai/lottery-dataset)
Le jeu de données '649.csv' fournit les données des tirages qui ont été faits depuis 1982 jusqu'à 2018. 
L'objectif est de comparer si une proposition donnée aujourd'hui a une fois été tirée au sort.

In [1]:
import pandas as pd
donnees = pd.read_csv('649.csv')
print(donnees.shape)

(3665, 11)


In [46]:
donnees.head(5)

Unnamed: 0,PRODUCT,DRAW NUMBER,SEQUENCE NUMBER,DRAW DATE,NUMBER DRAWN 1,NUMBER DRAWN 2,NUMBER DRAWN 3,NUMBER DRAWN 4,NUMBER DRAWN 5,NUMBER DRAWN 6,BONUS NUMBER
0,649,1,0,6/12/1982,3,11,12,14,41,43,13
1,649,2,0,6/19/1982,8,33,36,37,39,41,9
2,649,3,0,6/26/1982,1,6,23,24,27,39,34
3,649,4,0,7/3/1982,3,9,10,13,20,43,34
4,649,5,0,7/10/1982,5,14,21,31,34,47,45


In [12]:
donnees.tail(3)

Unnamed: 0,PRODUCT,DRAW NUMBER,SEQUENCE NUMBER,DRAW DATE,NUMBER DRAWN 1,NUMBER DRAWN 2,NUMBER DRAWN 3,NUMBER DRAWN 4,NUMBER DRAWN 5,NUMBER DRAWN 6,BONUS NUMBER
3662,649,3589,0,6/13/2018,6,22,24,31,32,34,16
3663,649,3590,0,6/16/2018,2,15,21,31,38,49,8
3664,649,3591,0,6/20/2018,14,24,31,35,37,48,17


In [5]:
donnees.dtypes

PRODUCT             int64
DRAW NUMBER         int64
SEQUENCE NUMBER     int64
DRAW DATE          object
NUMBER DRAWN 1      int64
NUMBER DRAWN 2      int64
NUMBER DRAWN 3      int64
NUMBER DRAWN 4      int64
NUMBER DRAWN 5      int64
NUMBER DRAWN 6      int64
BONUS NUMBER        int64
dtype: object

In [49]:
#extraire les nombres des colonnes 4 à 9 du dataframe
def extraction(row):
    ens = set(row[4:10])
    return ens

#compter le nombre de fois une proposition donnée a déjà été tirée 
#depuis le début du jeu
def verif_occurence_histo(liste, series):
    ens1 = set(liste)
    serie = pd.Series([ens1==el[1] for el in series.iteritems()])
    decompte = serie.sum()
    message = "La proposition {0} a déjà été tirée {1} fois dans toute l'histoire du jeu".format(liste, decompte)
    return (message)

#Tests
#extraction des numéros tirés+conversion en série
prop = list()
for elmt in donnees.iterrows() :
    prop.append(extraction(elmt[1]))
tirages = pd.Series(prop)
#vérification de la proposition
liste=[27,30,49,12,6, 18]
verif_occurence_histo(liste, tirages)

"La proposition [27, 30, 49, 12, 6, 18] a déjà été tirée 0 fois dans toute l'histoire du jeu"

In [50]:
liste2 = [8, 33, 36, 37, 39, 41]
verif_occurence_histo(liste2, tirages)

"La proposition [8, 33, 36, 37, 39, 41] a déjà été tirée 1 fois dans toute l'histoire du jeu"

#### Calcul de la probabilité de remporter le 1er prix en fonction du nombre de tickets joués 
L'objectif est d'observer dans quelle mesure le fait de jouer plusieurs tickets améliore les chances de gagner

In [56]:
def probabilite_plusieurs_tickets(n):
    c = combinaisons(49,6)
    p = (n/c)*100
    message = ' {0} ticket(s) donne {1}% chances de remporter le premier prix.'.format(n, p)
    return (print(message))

#Tests
liste3 = [1, 10, 100, 10000, 1000000, 6991908, 13983816]
for elmt in liste3:
    probabilite_plusieurs_tickets(elmt)

 1 ticket(s) donne 7.151123842018516e-06% chances de remporter le premier prix.
 10 ticket(s) donne 7.151123842018517e-05% chances de remporter le premier prix.
 100 ticket(s) donne 0.0007151123842018516% chances de remporter le premier prix.
 10000 ticket(s) donne 0.07151123842018516% chances de remporter le premier prix.
 1000000 ticket(s) donne 7.151123842018517% chances de remporter le premier prix.
 6991908 ticket(s) donne 50.0% chances de remporter le premier prix.
 13983816 ticket(s) donne 100.0% chances de remporter le premier prix.


#### Calcul de la probabilité de remporter un des prix intermédiaires (entre 2 à 5 nombres gagnants)


In [60]:
def probabilite_moins_6(i):
    c1 = combinaisons(6,i)
    succes = combinaisons(49-i,6-i)
    c2 = combinaisons(49,6)
    p = ((c1*succes)/c2)*100
    message = "Les chances d'avoir {0} nombres gagnants est de {1}%.".format(i, p)
    return (print(message))

#Tests
liste4=[2,3,4,5]
for elmt in liste4:
    probabilite_moins_6(elmt)

Les chances d'avoir 2 nombres gagnants est de 19.132653061224488%.
Les chances d'avoir 3 nombres gagnants est de 2.1710811984368217%.
Les chances d'avoir 4 nombres gagnants est de 0.10619418905397496%.
Les chances d'avoir 5 nombres gagnants est de 0.0018878966942928882%.
