In [None]:
# 02_eda_avancee.py  ── version script exécutable

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("ggplot")



In [None]:
# 1. Charger le jeu de données
df = pd.read_csv("resources/publications.csv")



In [None]:

# 2. Nettoyage rapide
df.drop_duplicates(inplace=True)
numeric_cols = df.select_dtypes("number").columns



In [None]:
# 3. Statistiques descriptives avancées
print(df[numeric_cols].describe(percentiles=[.01,.05,.95,.99]))



In [None]:
# 4. Détection rapide d’outliers (IQR)
Q1 = df[numeric_cols].quantile(0.25)
Q3 = df[numeric_cols].quantile(0.75)
IQR = Q3 - Q1
outliers = ((df[numeric_cols] < (Q1 - 1.5*IQR)) |
            (df[numeric_cols] > (Q3 + 1.5*IQR))).any(axis=1)
print(f"Nb outliers détectés : {outliers.sum()}")



In [None]:
# 5. Matrice de corrélation
corr = df[numeric_cols].corr()
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f", square=True)
plt.title("Heatmap des corrélations")
plt.tight_layout()
plt.savefig("visualisations/heatmap_correlations.png")
plt.show()


In [None]:

# 6. Pairplot (échantillon pour lisibilité)
sample = df.sample(min(len(df), 300))
sns.pairplot(sample[numeric_cols])
plt.savefig("visualisations/pairplot_numeric.png")
plt.show()