In [2]:
import pandas as pd
import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.metrics import r2_score, mean_absolute_error
from scipy.optimize import minimize



In [3]:

# ID du Google Sheet et GID de l'onglet
sheet_id = "1PdnadzZswADLqGBrI53a_8IsegivCMSz1pCZOh384-Y"
gid = "1517184233"

# Construction du lien CSV public de Google Sheets
url = f"https://docs.google.com/spreadsheets/d/{sheet_id}/export?format=csv&gid={gid}"

# Lecture du CSV directement dans un DataFrame
df = pd.read_csv(url)

# Si ton tableau commence à la colonne D (donc avec des colonnes vides avant),
# on peut supprimer les colonnes vides automatiquement :
df = df.dropna(axis=1, how="all")
df = df.replace("-", np.nan)
df = df.dropna(subset=['Team Gap Early', 'Est. Win'])

In [4]:
# ==========================
# PARAMÈTRES GÉNÉRAUX
# ==========================
features = ["Team Gap Early", "R", "Perf relative", "Perf intrinsèque"]
target_col = "Team Gap Early"
max_lag = 7

# ==========================
#  MISE EN FORME DU DATASET
# ==========================
for c in df.columns:
    df[c] = df[c].astype(str).str.replace(",", ".")
    df[c] = pd.to_numeric(df[c], errors="coerce")

# ---- Création des colonnes de lag ----
for feat in features:
    for lag in range(1, max_lag + 1):
        df[f"{feat}_lag{lag}"] = df[feat].shift(lag)

df = df.dropna(subset=[target_col])

# ==========================
# OPTIMISATION DU TAUX DE DÉCROISSANCE
# En temps noomal, on souhaiterai que notre modele apprene le taux de decroissance de lui meme mais on a pas assez de donnee
# On va donc forcer des poids decroissant pour coller a notre intuition du score
# ==========================
def objective(lmbda):
    decay = np.exp(-lmbda * np.arange(1, max_lag + 1))
    decay /= decay.sum()
    
    df_temp = df.copy()
    for feat in features:
        lag_cols = [f"{feat}_lag{i}" for i in range(1, max_lag + 1)]
        df_temp[f"{feat}_weighted"] = df_temp[lag_cols].fillna(0).dot(decay)
    
    X = df_temp[[f"{feat}_weighted" for feat in features]].values
    y = df_temp[target_col].values
    
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    model = Ridge(alpha=1.0)
    model.fit(X_scaled, y)
    
    return -r2_score(y, model.predict(X))

res = minimize(objective, x0=[0.3], bounds=[(0.05, 1.0)])
best_lambda = res.x[0]
print(f" Lambda optimal trouvé : {best_lambda:.4f}")

# ==========================
# RE-ENTRAÎNEMENT FINAL
# On entraine le modele avec le taux de decroissance des poids pour la lag qui augment
# ==========================
decay = np.exp(-best_lambda * np.arange(1, max_lag + 1))
decay /= decay.sum()

for feat in features:
    lag_cols = [f"{feat}_lag{i}" for i in range(1, max_lag + 1)]
    df[f"{feat}_weighted"] = df[lag_cols].fillna(0).dot(decay)

X = df[[f"{feat}_weighted" for feat in features]].values
y = df[target_col].values

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

model = Ridge(alpha=0.5)
model.fit(X_scaled, y)

coefs = model.coef_
intercept = model.intercept_

coef_df = pd.DataFrame({
    "Feature": features,
    "Poids": coefs
}).round(4)

print("\n Poids globaux par feature :")
print(coef_df)
print(f"\nIntercept : {intercept:.4f}")

y_pred = model.predict(X_scaled)
print(f"\nR² (train) : {r2_score(y, y_pred):.3f}")
print(f"MAE (train) : {mean_absolute_error(y, y_pred):.3f}")

print(f"\nDécroissance exponentielle utilisée (λ = {best_lambda:.3f}) :")
print(np.round(decay, 4))

# ==========================
# CALCUL DES POIDS EFFECTIFS PAR LAG
# ==========================
# produit w_feature × decay_lag pour chaque feature et lag
weights_matrix = np.outer(coefs, decay)
weights_df = pd.DataFrame(
    weights_matrix,
    index=features,
    columns=[f"lag{i}" for i in range(1, max_lag + 1)]
).round(5)

print("\n------------ Poids effectifs (w_feature × λ_lag) :")
print(weights_df)



 Lambda optimal trouvé : 0.4748

 Poids globaux par feature :
            Feature   Poids
0    Team Gap Early -2.0005
1                 R  0.4336
2     Perf relative -0.3186
3  Perf intrinsèque  1.5698

Intercept : 0.5714

R² (train) : 0.895
MAE (train) : 0.466

Décroissance exponentielle utilisée (λ = 0.475) :
[0.3921 0.2439 0.1517 0.0944 0.0587 0.0365 0.0227]

------------ Poids effectifs (w_feature × λ_lag) :
                     lag1     lag2     lag3     lag4     lag5     lag6  \
Team Gap Early   -0.78441 -0.48791 -0.30349 -0.18877 -0.11742 -0.07304   
R                 0.17001  0.10575  0.06578  0.04091  0.02545  0.01583   
Perf relative    -0.12492 -0.07770 -0.04833 -0.03006 -0.01870 -0.01163   
Perf intrinsèque  0.61554  0.38288  0.23815  0.14813  0.09214  0.05731   

                     lag7  
Team Gap Early   -0.04543  
R                 0.00985  
Perf relative    -0.00724  
Perf intrinsèque  0.03565  


In [7]:
def generate_excel_formula(row, decay, coefs, intercept, start_row=2):

    features_letters = ["G", "H", "I", "J"]  # ordre : Team Gap Early, R, Perf relative, Perf intrinsèque
    
    formula = f"={intercept:.4f}".replace(".", ",")
    
    for feat_idx, col_letter in enumerate(features_letters):
        coef = coefs[feat_idx]
        formula += f"+({coef:.4f})*SOMMEPROD(("
        
        # Les 7 lags : lag1 = row-1, lag2 = row-2, ..., lag7 = row-7
        for lag_idx, d in enumerate(decay):
            lag_row = row - (lag_idx + 1)
            formula += f"{d:.4f}*{col_letter}{lag_row}+"
        
        formula = formula.rstrip("+") + "))"
    
    formula = formula.replace(".", ",")
    return formula


row_number = 9
excel_formula_row9 = generate_excel_formula(row_number, decay, coefs, intercept)
print(excel_formula_row9)

=0,5714+(-2,0005)*SOMMEPROD((0,3921*G8+0,2439*G7+0,1517*G6+0,0944*G5+0,0587*G4+0,0365*G3+0,0227*G2))+(0,4336)*SOMMEPROD((0,3921*H8+0,2439*H7+0,1517*H6+0,0944*H5+0,0587*H4+0,0365*H3+0,0227*H2))+(-0,3186)*SOMMEPROD((0,3921*I8+0,2439*I7+0,1517*I6+0,0944*I5+0,0587*I4+0,0365*I3+0,0227*I2))+(1,5698)*SOMMEPROD((0,3921*J8+0,2439*J7+0,1517*J6+0,0944*J5+0,0587*J4+0,0365*J3+0,0227*J2))


Cette formule permet donc de predire le team gap early en fonction des  ["Team Gap Early", "R", "Perf relative", "Perf intrinsèque"] pour les 7 dernieres games. 

Actuellement cette formule est a mettre pour la ligne 9. Apres tu peux juste faire glisser la formule sur les autres lignes