In [None]:
# --------------------------------------------
# IMPORT LIBRARIES
# --------------------------------------------
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.set_option('display.max_rows', None)

In [None]:
# --------------------------------------------
# PARAMETRES DE SIMULATION
# --------------------------------------------
Nobs = 10000 # nombre d'observations
NX = 6 # nombre de covariables
PX = 1/2 # probabilité qu'une covariable vaille 1
tau = 0.2 #effet du traitement

alpha_eZ = [1,1,-1,0,0,0] #effet des covariables sur le propensity score
alpha0_eZ = -np.sum(alpha_eZ)*PX #intercept du propensity score
alpha_eY = [-1,-1,1,-1,1,1] #effet des covariables sur la variable d'intérêt
alpha0_eY = -np.sum(alpha_eY)*PX #intercept de la variable d'intérêt

# --------------------------------------------
# GENERATION DES COVARIABLES X
# --------------------------------------------
X = np.random.binomial(1,PX,(Nobs,NX))

# --------------------------------------------
# GENERATION DE Z
# --------------------------------------------
def sigmoid(x): # Définition de la fonction sigmoïde
    return 1 / (1 + np.exp(-x))

eZ = sigmoid(X.dot(alpha_eZ) + alpha0_eZ) # Génération du propensity score

Z = np.random.binomial(1,eZ)

# --------------------------------------------
# GENERATION DE Y
# --------------------------------------------
eY = sigmoid(X.dot(alpha_eY) + tau*Z + alpha0_eY)
Y = np.random.binomial(1,eY)

# --------------------------------------------
# MISE EN FORME ET EXPORT DES DONNEES
# --------------------------------------------
df = pd.DataFrame(X, columns=[f"X{i+1}" for i in range(NX)])  # noms des colonnes X1, X2, ...
df['Y'] = Y
df['Z'] = Z

# Réorganiser les colonnes pour avoir Y, Z, puis les X
df = df[['Y', 'Z'] + [f"X{i+1}" for i in range(NX)]]

# Exporter le DataFrame au format CSV
df.to_csv("data.csv", index=False)

In [127]:
# --------------------------------------------
# ANALYSE DES DONNEES
# --------------------------------------------
# Calculer la moyenne de Y pour chaque valeur de Z
mean_Y_by_Z = df.groupby('Z')['Y'].mean()

# Afficher les résultats
print(mean_Y_by_Z)

# Calculer la moyenne de Y pour chaque combinaison de Z et X1
mean_Y_by_Z_X1_X2_X3 = df.groupby(['Z', 'X1', 'X2', 'X3'])['Y'].mean()

# Afficher les résultats
print(mean_Y_by_Z_X1_X2_X3)

Z
0    0.523791
1    0.575464
Name: Y, dtype: float64
Z  X1  X2  X3
0  0   0   0     0.384491
           1     0.611345
       1   0     0.257081
           1     0.371465
   1   0   0     0.615721
           1     0.777363
       1   0     0.373887
           1     0.599686
1  0   0   0     0.502385
           1     0.713450
       1   0     0.320163
           1     0.508547
   1   0   0     0.683246
           1     0.847826
       1   0     0.509229
           1     0.686520
Name: Y, dtype: float64
