In [None]:
# Importation des librairies
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.diagnostic import het_breuschpagan
from statsmodels.stats.stattools import durbin_watson
from scipy.stats import shapiro
from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tools.tools import add_constant

# Importation de la base de données
data_GES = pd.read_excel(r'Bases de données/bdd_diif-in-diff.xlsx')

print('')
print('AFFICHAGES DES RESULTATS DE L\'ETUDE')
print("")

# Préliminaires
print('Affichage de la base de données')
print('')
print(data_GES.head())
print(data_GES.tail())
print('')
print(data_GES.columns)
print('')
print(data_GES.info())
print('')
print('Doublons et données manquantes')
print(data_GES.isnull().sum())
print(data_GES.duplicated().sum())
print('')

# Statistique descriptive 
stat = data_GES.drop(columns=['Year','Traitement ','Apres_intervention' ]).describe()
print('STATISTIQUE DESCRIPTIVE')
print('')
print(stat)
print("")

print('MODELISATION')
print('')
print('Deuxième modèle économétrique : Regression linéaire multiple')
print('')

# Sélections des variables d'études
y = data_GES['CO2eq'] #variable dépendante
x = data_GES[['Prix_carbone', 'invest_energie', 'populations', 'PIB']] #variables indêpendantes

# Ajout du constant aux variables explicatives
x = sm.add_constant(x)

# Estimation du modèle
model = sm.OLS(y,x).fit()

# Affichage du modèle 
print(model.summary())
# Les test de diagnostics après estimation du modèle

print('')
print('TEST DE DIAGNOSTIC')
print('')

# Calculer les résidus
residuals = model.resid

# Test de Breusch-Pagan (Test d'homoscédasticité)
lm, lm_p_value, fvalue, f_p_value = het_breuschpagan(residuals, x)

# Afficher les résultats du test
print("Test de Breusch-Pagan")
print('')
print("LM Statistic :", lm)
print("LM p-value :", lm_p_value)
print("F-Statistic :", fvalue)
print("F p-value :", f_p_value)
print('')

# Test de Durbin-Watson (Test d'autocorrélation)
durbin_watson_statistic = durbin_watson(residuals)

# Afficher le résultat du test
print("Test de Durbin-Watson")
print("Statistique de Durbin-Watson :", durbin_watson_statistic)
print('')

# Test de Shapiro-Wilk (Normalité des résidus)
shapiro_test_statistic, shapiro_test_p_value = shapiro(residuals)

# Afficher le résultat du test
print("Test de Shapiro-Wilk")
print("Statistique de test :", shapiro_test_statistic)
print("p-value :", shapiro_test_p_value)
print('')

# Test de multicolinéarité
# Ajouter une colonne pour la constante
x = add_constant(x)

# Calculer les valeurs VIF
vif_data = pd.DataFrame()
vif_data["Variable"] = x.columns
vif_data["VIF"] = [variance_inflation_factor(x.values, i) for i in range(x.shape[1])]

# Afficher les valeurs VIF
print('Test de multicolinéarité')
print('')
print("Valeurs VIF :")
print(vif_data)

print('')
print('VISUALISATION DES DONNEES')
print('')

# Visualisation graphique
# Visualisation de la variable CO2eq
print('Visualisation de la variable CO2eq')
print('')

: 