In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import json
from tqdm import tqdm

# Étape 1: Chargement des données

# Exemple : chargement des données depuis un fichier csv

# print("Chargement des données...")
# df = pd.read_csv('votre_fichier.csv')
# print("Données chargées. Shape:", df.shape)

# Exemple : chargement des données depuis un fichier JSON

print("Chargement des données...")
df = pd.read_json('data/amenagements-cyclables.json')
print("Données chargées. Shape:", df.shape)

# Afficher une barre de progression pendant l'import des données

# filename = 'data/amenagements-cyclables.json'

# def count_lines(filename):
#     with open(filename, 'r') as file:
#         return sum(1 for line in file)

# total_lines = count_lines(filename)
# pbar = tqdm(total=total_lines, unit='lignes')

# df_list = []
# with open(filename, 'r') as f:
#     for line in f:
#         df_list.append(pd.json_normalize(json.loads(line)))
#         pbar.update(1)

# df = pd.concat(df_list, ignore_index=True)

# pbar.close()

# print("Données chargées. Shape:", df.shape)

In [None]:
# Étape 2: Inspection initiale
print("Aperçu des données:")
df.head()

In [None]:
print("Informations sur les colonnes:")
print(df.info())
print("\nStatistiques descriptives:")
print(df.describe())

In [None]:
# Étape 3: Traitement des valeurs manquantes
print("\nValeurs manquantes avant traitement:")
print(df.isnull().sum())

# Remplacer les valeurs manquantes numériques par la médiane
# numeric_columns = df.select_dtypes(include=[np.number]).columns
# df[numeric_columns] = df[numeric_columns].fillna(df[numeric_columns].median())

# Remplacer les valeurs manquantes catégorielles par le mode
# categorical_columns = df.select_dtypes(include=['object']).columns
# df[categorical_columns] = df[categorical_columns].fillna(df[categorical_columns].mode().iloc[0])

# print("Valeurs manquantes après traitement:")
# print(df.isnull().sum())

In [None]:
# Étape 4: Vérification et conversion des types de données
# Exemple : conversion d'une colonne en type datetime
if 'date' in df.columns:
    df['date'] = pd.to_datetime(df['date'])

# Exemple : conversion d'une colonne en type catégoriel
if 'category' in df.columns:
    df['category'] = df['category'].astype('category')

print("\nTypes de données après conversion:")
print(df.dtypes)

In [None]:
# Étape 5: Détection et traitement des valeurs aberrantes
# Exemple pour les colonnes 'age' et 'salary'
for col in ['age', 'salary']:  # Ajustez ces colonnes selon votre dataset
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df[col] = df[col].clip(lower_bound, upper_bound)
print("\nValeurs aberrantes traitées pour les colonnes: age, salary")

In [None]:
# Étape 6: Création de nouvelles caractéristiques (exemple)
if 'height' in df.columns and 'weight' in df.columns:
    df['bmi'] = df['weight'] / (df['height'] / 100) ** 2
    print("\nNouvelle caractéristique 'bmi' créée")

In [None]:
# Étape 7: Sélection des caractéristiques
# Exemple: suppression de la colonne 'id' si elle existe
if 'id' in df.columns:
    df = df.drop(columns=['id'])
    print("\nColonne 'id' supprimée")

print("\nNettoyage des données terminé!")
print("Dimensions finales du dataframe:", df.shape)

In [None]:
# Sauvegarde du dataframe nettoyé (optionnel)
df.to_csv('donnees_nettoyees.csv', index=False)
print("\nDonnées nettoyées sauvegardées dans 'donnees_nettoyees.csv'")