In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from prepdata import *



In [2]:

def process_and_check_data(X, y):
    # Conversion des features (X) et des labels (y) en DataFrame
    df_X = pd.DataFrame(X, columns=[f'feature_{i}' for i in range(X.shape[1])])
    df_y = pd.DataFrame(y, columns=['target'])

    # Combiner X et y dans un seul DataFrame
    data = pd.concat([df_X, df_y], axis=1)

    # Afficher les premières lignes du DataFrame
    print("Premières lignes du dataset :")
    print(data.head())

    # Vérification des types de données
    print("\nTypes de données par colonne :")
    print(data.dtypes)

    # Vérifier les valeurs manquantes
    print("\nValeurs manquantes par colonne :")
    print(data.isnull().sum())

    # Ratio des classes dans la variable cible
    print("\nRatio des classes dans la variable cible :")
    print(data['target'].value_counts(normalize=True))

    # Vérification des doublons
    print(f"\nNombre de doublons : {data.duplicated().sum()}")

    # Statistiques descriptives pour les features
    print("\nStatistiques descriptives des features :")
    print(df_X.describe())



In [4]:
# Exemple d'utilisation avec la sortie de data_recovery

X_abalone8, y_abalone8 = data_recovery("abalone8") 
process_and_check_data(X_abalone8, y_abalone8)


In [6]:
# Charger et vérifier plusieurs datasets

# Assumer que data_recovery et process_and_check_data sont déjà définies

# Liste des datasets à charger et vérifier
datasets = [
    'abalone8', 'abalone17', 'abalone20', 'autompg', 'australian', 'balance', 
    'bankmarketing', 'bupa', 'german', 'glass', 'hayes', 'heart', 'iono', 
    'libras', 'newthyroid', 'pageblocks', 'pima', 'satimage', 'segmentation', 
    'sonar', 'spambase', 'splice', 'vehicle', 'wdbc', 'wine', 'wine4', 
    'yeast3', 'yeast6'
]

# Boucle sur chaque dataset
for dataset in datasets:
    print(f"\n=== Vérification du dataset : {dataset} ===")
    
    # Charger les données avec data_recovery
    X, y = data_recovery(dataset)
    
    # Vérifier et afficher les informations sur les données
    process_and_check_data(X, y)


Points qui attirent l'attention :

- Déséquilibre des classes : Plusieurs datasets montrent un déséquilibre important dans les classes cibles (par exemple, abalone8, abalone17, balance, hayes). Cela pourrait affecter les performances des modèles de classification si des ajustements ne sont pas faits, comme l'utilisation de techniques de sampling (sur/sous-échantillonnage) ou de méthodes sensibles au coût.

- Doublons : Certains datasets, comme bupa ou segmentation, contiennent des doublons. Cela peut biaiser les résultats et fausser l'analyse. Il pourrait être utile de les supprimer ou de les gérer.

- Features redondantes : Certains datasets contiennent des variables très similaires (corrélées ou avec des valeurs presque identiques), comme dans abalone avec ses features de dimensions physiques qui pourraient être combinées ou réduites par PCA ou d'autres méthodes de réduction de dimensionnalité.

  
- Variabilité des échelles : Plusieurs datasets contiennent des variables avec des échelles très différentes (comme pageblocks ou sonar). Une normalisation ou standardisation peut être nécessaire pour améliorer les performances des modèles.


Datasets de régression ou de classification :

La majorité des datasets mentionnés ici sont des datasets de classification, avec une variable cible discrète (généralement binaire ou multiclasses). Par exemple, les datasets balance, bankmarketing, bupa, german, et pima sont tous utilisés pour des tâches de classification binaire.
Toutefois, certains datasets peuvent potentiellement être utilisés pour des tâches de régression, comme autompg (régression sur la consommation de carburant), pageblocks (prédiction continue de certaines caractéristiques), ou abalone (prédiction de l'âge des abalone, qui peut être reformulé en tâche de régression).

In [8]:
X_abalone8, y_abalone8 = data_recovery("abalone8")
process_and_check_data(X_abalone8, y_abalone8)

In [10]:
X_abalone17, y_abalone17 = data_recovery("abalone17")
process_and_check_data(X_abalone17, y_abalone17)

In [12]:
X_abalone20, y_abalone20 = data_recovery("abalone20")
process_and_check_data(X_abalone20, y_abalone20)

In [14]:
X_autompg, y_autompg = data_recovery("autompg")
process_and_check_data(X_autompg, y_autompg)

In [None]:
X_australian, y_australian = data_recovery("australian")
process_and_check_data(X_australian, y_australian)

In [None]:
X_balance, y_balance = data_recovery("balance")
process_and_check_data(X_balance, y_balance)

In [None]:
X_bankmarketing, y_bankmarketing = data_recovery("bankmarketing")
process_and_check_data(X_bankmarketing, y_bankmarketing)

In [None]:
X_bupa, y_bupa = data_recovery("bupa")
process_and_check_data(X_bupa, y_bupa)

In [None]:
X_german, y_german = data_recovery("german")
process_and_check_data(X_german, y_german)

In [None]:
X_glass, y_glass = data_recovery("glass")
process_and_check_data(X_glass, y_glass)

In [None]:
X_hayes, y_hayes = data_recovery("hayes")
process_and_check_data(X_hayes, y_hayes)

In [None]:
X_heart, y_heart = data_recovery("heart")
process_and_check_data(X_heart, y_heart)

In [None]:
X_iono, y_iono = data_recovery("iono")
process_and_check_data(X_iono, y_iono)

In [None]:
X_libras, y_libras = data_recovery("libras")
process_and_check_data(X_libras, y_libras)

In [None]:
X_newthyroid, y_newthyroid = data_recovery("newthyroid")
process_and_check_data(X_newthyroid, y_newthyroid)

In [None]:
X_pageblocks, y_pageblocks = data_recovery("pageblocks")
process_and_check_data(X_pageblocks, y_pageblocks)

In [None]:
X_pima, y_pima = data_recovery("pima")
process_and_check_data(X_pima, y_pima)

In [None]:
X_satimage, y_satimage = data_recovery("satimage")
process_and_check_data(X_satimage, y_satimage)

In [None]:
X_segmentation, y_segmentation = data_recovery("segmentation")
process_and_check_data(X_segmentation, y_segmentation)

In [None]:
X_sonar, y_sonar = data_recovery("sonar")
process_and_check_data(X_sonar, y_sonar)

In [None]:
X_spambase, y_spambase = data_recovery("spambase")
process_and_check_data(X_spambase, y_spambase)

In [None]:
X_splice, y_splice = data_recovery("splice")
process_and_check_data(X_splice, y_splice)

In [None]:
X_vehicle, y_vehicle = data_recovery("vehicle")
process_and_check_data(X_vehicle, y_vehicle)

In [None]:
X_wdbc, y_wdbc = data_recovery("wdbc")
process_and_check_data(X_wdbc, y_wdbc)

In [None]:
X_wine, y_wine = data_recovery("wine")
process_and_check_data(X_wine, y_wine)

In [None]:
X_wine4, y_wine4 = data_recovery("wine4")
process_and_check_data(X_wine4, y_wine4)

In [None]:
X_yeast3, y_yeast3 = data_recovery("yeast3")
process_and_check_data(X_yeast3, y_yeast3)

In [None]:
X_yeast6, y_yeast6 = data_recovery("yeast6")
process_and_check_data(X_yeast6, y_yeast6)