In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import sklearn
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
import datetime

In [2]:
def serie_generator():
    """ Génère un tirage aléatoire """
    # Génération d'une suite de numéros
    boules = list(range(1, 51))
    numbers = np.random.choice(boules, 5, replace=False)
    stars = np.random.choice(boules[:12], 2, replace=False)

    liste = np.zeros(7)
    liste[:5] = numbers #sorted(numbers)
    liste[5:7] = stars #sorted(stars)

    return(liste)

In [4]:
data = pd.read_csv("app/data/data.csv",sep=",", index_col=0)

#print(data["Date"][14498])
# transformer la date en données quantitatives : année / mois / jour
#for i in range(len(data)) :
    #date = data["Date"][i].split("-") # [année, mois, jour]
dates = [data["Date"][i].split("-") for i in range(len(data))]
dates = np.array(dates).T
# ajout au df
data.insert(10, "Annee", dates[0])
data.insert(11, "Mois", dates[1])
data.insert(12, "Jour", dates[2])

In [6]:
# liste des variables explicatives / variable cible
X = data[["N1", "N2", "N3", "N4", "N5", "E1", "E2", "Annee", "Mois", "Jour"]]
y = data[["Winning Serie"]]
# découpage en jeu d'entrainement / jeu de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
scaler = StandardScaler()
scaler.fit(X_train)
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [10]:
print(pd.concat([y_train, y_test]))
print(y)

       Winning Serie
58328            0.0
95279            0.0
91251            0.0
62951            0.0
93888            0.0
...              ...
74596            0.0
58629            0.0
36028            0.0
87552            0.0
87461            0.0

[133118 rows x 1 columns]
        Winning Serie
0                 1.0
1                 1.0
2                 1.0
3                 1.0
4                 1.0
...               ...
133113            0.0
133114            0.0
133115            0.0
133116            0.0
133117            0.0

[133118 rows x 1 columns]


In [11]:
def entrainement(X_train, y_train):
    model = RandomForestClassifier()
    model.fit(X_train, y_train)
    # pred = model.predict(X_test)
    # accuracy = accuracy_score(y_test, pred)

    # proba = model.predict_proba(X_test)
    # proba[:,1].mean() # 

    return(model)

def metriques(model, X_test, y_test):

    pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, pred)
    # ajouter loss etc. 

    proba = model.predict_proba(X_test)
    proba[:,1].mean() # probabilité moyenne de gagner 

    return(accuracy)

def predire(model, x):
    """ Fonction qui prédit la probabilité qu'une suite x de nombre soit gagnante, 
        selon le modèle model

    Args:
        model (type??): le modèle de prédiction
        x (list of int): la série d'entiers correspondant a une grille jouée à l'euromilion

    Returns:
        float: la probabilité que la suite jouée x soit gagnante

    """
    # ajout de la date au tirage
    today = datetime.date.today()
    annee = today.strftime("%Y")
    mois = today.strftime("%m")
    jour = today.strftime("%d")
    x = np.append(x, [annee, mois, jour])
    
    proba = model.predict_proba(x.reshape(1, -1))
    print(proba)
    return(proba[0][1])

def tirer_un_bon(model, prob_min):
    """ Fonction qui trouve un gagnant probable 

    Args : 
        model (obj): le modèle de prédiction
        prob_min (float): le minimum de probabilité de gagner souhaitée
    
    Returns:
        list of int: le tirage de probabilité supérieur à prob_min 
            s'il a été trouvé
            sinon le tirage le plus probable visité
    """

    Kmax = 10**5 # Nombre d'irérations max
    k = 0 # compteur d'itérations
    tirage_best = [] # enregistrement du meilleur tirage visité
    prob_best = 0 # et de sa probabilité de gagner

    # arret au bout de k itérations si impossible de trouver une proba > prob_min
    # retenir le meilleur tirage calculé dans ce cas avec sa proba
    while k < Kmax:
        print("itération ",k)
        tirage = serie_generator()
        prob = predire(model=model, x=tirage)
        if prob >= prob_min:
            return tirage, prob
        if prob > prob_best:
            tirage_best = tirage
            prob_best = prob
        k += 1
    
    return tirage_best, prob_best

In [12]:
model = entrainement(X_train, y_train)
acc = metriques(model, X_test, y_test)
print("accuracy :",acc)

# test
tirage = serie_generator()
prob = predire(model=model, x=tirage)

  model.fit(X_train, y_train)


accuracy : 0.9895207331730769
[[0.83 0.17]]


IndexError: index 1 is out of bounds for axis 0 with size 1

In [None]:
tirer_un_bon(model, 0.9)