In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

class DataCatalogue:
    def __init__(self, df: pd.DataFrame):
        """Initialise la classe avec un DataFrame."""
        self.df = df

    def describe_columns(self):
        """Génère un résumé détaillé de chaque colonne."""
        summary = []
        for col in self.df.columns:
            summary.append({
                'Nom de la colonne': col,
                'Type de données': self.df[col].dtype,
                'Valeurs manquantes': self.df[col].isna().sum(),
                'Pourcentage de valeurs manquantes': round(self.df[col].isna().mean() * 100, 2),
                'Valeurs uniques': self.df[col].nunique(),
                'Exemples de valeurs': self.df[col].dropna().unique()[:5]
            })
        return pd.DataFrame(summary)

    def basic_statistics(self):
        """Génère des statistiques de base pour les colonnes numériques."""
        num_df = self.df.select_dtypes(include=[np.number])
        stats = num_df.describe().T
        stats["Asymétrie (Skewness)"] = num_df.skew()
        stats["Applatissement (Kurtosis)"] = num_df.kurt()
        return stats

    def categorical_summary(self):
        """Résumé des colonnes catégoriques."""
        categorical_cols = self.df.select_dtypes(include=['object', 'category'])
        summary = []
        for col in categorical_cols:
            summary.append({
                'Nom de la colonne': col,
                'Nombre de catégories uniques': self.df[col].nunique(),
                'Catégorie la plus fréquente': self.df[col].mode()[0],
                'Fréquence de la catégorie majoritaire': self.df[col].value_counts().iloc[0]
            })
        return pd.DataFrame(summary)

    def correlation_matrix(self):
        """Affiche une heatmap de la matrice de corrélation."""
        num_df = self.df.select_dtypes(include=[np.number])
        plt.figure(figsize=(10, 6))
        sns.heatmap(num_df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
        plt.title("Matrice de corrélation des variables")
        plt.show()

    def missing_value_analysis(self):
        """Analyse des valeurs manquantes."""
        missing_data = self.df.isna().mean() * 100
        missing_data = missing_data[missing_data > 0].sort_values(ascending=False)
        if not missing_data.empty:
            plt.figure(figsize=(10, 5))
            sns.barplot(x=missing_data.index, y=missing_data.values, palette='viridis')
            plt.xticks(rotation=45)
            plt.ylabel("Pourcentage de valeurs manquantes")
            plt.title("Distribution des valeurs manquantes")
            plt.show()
        else:
            print("Aucune valeur manquante dans le dataset.")

    def feature_distribution(self):
        """Affiche la distribution des variables numériques."""
        num_cols = self.df.select_dtypes(include=[np.number]).columns
        self.df[num_cols].hist(figsize=(12, 8), bins=30, edgecolor='black')
        plt.suptitle("Distribution des caractéristiques", fontsize=14)
        plt.show()

    def generate_catalogue(self):
        """Génère un catalogue exhaustif des données."""
        print("\n===== DESCRIPTION DES COLONNES =====")
        print(self.describe_columns())

        print("\n===== STATISTIQUES DE BASE (NUMÉRIQUES) =====")
        print(self.basic_statistics())

        print("\n===== RÉSUMÉ DES VARIABLES CATÉGORIQUES =====")
        print(self.categorical_summary())

        print("\n===== ANALYSE DES VALEURS MANQUANTES =====")
        self.missing_value_analysis()

        print("\n===== DISTRIBUTION DES VARIABLES =====")
        self.feature_distribution()

        print("\n===== MATRICE DE CORRÉLATION =====")
        self.correlation_matrix()
