# Mini-projet Pandas – Étape 1 : Audit des données

**Objectif :** Charger les jeux de données EduMart et évaluer leur qualité
(types, valeurs manquantes, incohérences et anomalies potentielles).


In [None]:
# Import des bibliothèques
import pandas as pd
import numpy as np


In [None]:
# Import des données
customers = pd.read_csv("../data/raw/customers.csv")
order_lines = pd.read_csv("../data/raw/order_lines.csv")
products = pd.read_csv("../data/raw/products.csv")


In [None]:
# Inspection des données
# Un apercu des lignes
customers.head()
order_lines.head()
products.head()



**Dimention des datasets**

In [None]:
customers.shape

In [None]:
order_lines.shape

In [None]:
products.shape

**Informations générales**

In [None]:
print(products.info())

In [None]:
print(customers.info())

In [None]:
print(order_lines.info())

**Les statistiques descriptives**

In [None]:
customers.describe(include="all")


In [None]:
products.describe(include = "all")

In [None]:
order_lines.describe(include = "all")

## Problèmes de qualité identifiés

- Présence de valeurs manquantes dans certaines variables sociodémographiques
  (ex : genre(gender), ville(city)).
- La variable `age` contient des valeurs non numériques (ex : "unknown").
- La variable `discount_pct` semble contenir des valeurs stockées sous forme de texte.
- Des quantités négatives ou nulles sont observées dans `quantity`, ce qui constitue
  une anomalie.
- Les délais de livraison présentent des valeurs manquantes et potentiellement extrêmes.


# Mini-rapport d’audit des données

Les trois jeux de données ont été chargés et inspectés à l’aide de la méthode
DataFrame.info().

Le fichier products.csv (60 observations, 5 variables) présente une structure
propre, sans valeurs manquantes et avec des types cohérents. Il est directement
exploitable pour l’analyse.

Le fichier customers.csv (500 observations, 6 variables) contient des anomalies
de qualité : les variables age et signup_date sont stockées sous forme de texte
et devront être converties en types numériques et date. Des valeurs manquantes sont
également observées pour gender (10 cas) et city (15 cas).

Le fichier order_lines.csv (2 225 lignes, 18 variables) constitue la table
transactionnelle principale. Certaines variables nécessitent un traitement
ultérieur, notamment order_date (conversion en date) et la gestion de valeurs
manquantes pour delivery_days, review_score et city. Les montants financiers
sont déjà numériques, ce qui permettra un contrôle de cohérence après jointure.

Globalement, les données sont exploitables mais requièrent un nettoyage et des
conversions de types avant les analyses avancées.