# **NETTOYAGE DE LA BASE DE DONN√âE DES FOURNITURES**

In [1]:
# Import des libraires necessaires
import pandas as pd
import numpy as np
import os
from pathlib import Path

## 1. CHARGEMENT DES DONN√âES

In [2]:
# Configuration des chemins
BASE_DIR = Path('..')
RAW_DIR = BASE_DIR / 'data' / 'raw' / 'Article'
PROCESSED_DIR = BASE_DIR / 'data' / 'processed' / 'final'
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

In [3]:
# Charger les donn√©es de Yaound√©
input_file = RAW_DIR / 'fourniture_yaound√©.csv'
input_file_1 = RAW_DIR / 'fourniture_douala.csv'

df_yaound√© = pd.read_csv(input_file, sep=";")
print(f"‚úÖ Yaound√©: {len(df_yaound√©)} articles charg√©s")
print(f"Colonnes: {list(df_yaound√©.columns)}")
print("\nAper√ßu Yaound√©:")
df_yaound√©.head()

‚úÖ Yaound√©: 187 articles charg√©s
Colonnes: ['DESIGNATIONS', 'PRIX']

Aper√ßu Yaound√©:


Unnamed: 0,DESIGNATIONS,PRIX
0,Cahiers de dessin 16 pages petit format,300
1,Cahiers de dessin 32 pages petit format,500
2,Cahiers de dessin 32 pages grand format,1000
3,Paquet de cahier de dessin petit format,2‚ÄØ000
4,Paquet de cahier de dessin grand format,3‚ÄØ500


In [4]:
# Charger les donn√©es de Douala
df_douala = pd.read_csv(input_file_1, sep=";")
print(f"\n‚úÖ Douala: {len(df_douala)} articles charg√©s")
print(f"Colonnes: {list(df_douala.columns)}")
print("\nAper√ßu Douala:")
df_douala.head()


‚úÖ Douala: 61 articles charg√©s
Colonnes: ['DESIGNATIONS', 'PRIX']

Aper√ßu Douala:


Unnamed: 0,DESIGNATIONS,PRIX
0,Couvertures cahiers,100
1,Couvertures cahiers transparentes,100
2,Couvre-livres Adh√©sif rouleau (A),1500
3,Couvre-livres Adh√©sif rouleau (B),2000
4,Crayon BIC HB,1‚ÄØ500


## 2. NETTOYAGE ET STANDARDISATION

In [5]:
def nettoyer_designation(designation):
    """Nettoie et standardise les d√©signations"""
    if pd.isna(designation):
        return "Article sans nom"
    
    # Convertir en string et nettoyer
    designation = str(designation).strip()
    
    # Supprimer les caract√®res sp√©ciaux en d√©but/fin
    designation = designation.strip(".,;-_")
    
    # Remplacer les espaces multiples par un seul
    designation = ' '.join(designation.split())
    
    # Capitaliser la premi√®re lettre
    if designation:
        designation = designation[0].upper() + designation[1:]
    
    return designation

def nettoyer_prix(prix):
    """Convertit le prix en entier (francs CFA)"""
    if pd.isna(prix):
        return 0
    
    # Convertir en string d'abord
    prix_str = str(prix).strip()
    
    # Supprimer les espaces et caract√®res non num√©riques sauf les chiffres
    prix_str = ''.join(c for c in prix_str if c.isdigit())
    
    try:
        return int(prix_str) if prix_str else 0
    except (ValueError, TypeError):
        return 0

def generer_code_article(designation, ville, index):
    """G√©n√®re un code unique pour chaque article"""
    # Prendre les 3 premiers caract√®res de la d√©signation
    code_base = ''.join(c for c in designation[:3] if c.isalpha()).upper()
    if len(code_base) < 2:
        code_base = "ART"
    
    # Ajouter la ville et l'index
    ville_code = ville[0].upper()  # Y pour Yaound√©, D pour Douala
    return f"F{code_base}{ville_code}{index:03d}"

In [6]:
# Nettoyer Yaound√©
df_yaound√©_clean = df_yaound√©.copy()
df_yaound√©_clean['DESIGNATIONS'] = df_yaound√©_clean['DESIGNATIONS'].apply(nettoyer_designation)
df_yaound√©_clean['PRIX'] = df_yaound√©_clean['PRIX'].apply(nettoyer_prix)
df_yaound√©_clean['ville'] = 'Yaound√©'

print(f"Avant nettoyage: {len(df_yaound√©)} articles")
print(f"Apr√®s nettoyage: {len(df_yaound√©_clean)} articles")
print(f"Prix nuls supprim√©s: {len(df_yaound√©_clean[df_yaound√©_clean['PRIX'] == 0])}")

Avant nettoyage: 187 articles
Apr√®s nettoyage: 187 articles
Prix nuls supprim√©s: 0


In [7]:
# Nettoyer Douala
df_douala_clean = df_douala.copy()
df_douala_clean['DESIGNATIONS'] = df_douala_clean['DESIGNATIONS'].apply(nettoyer_designation)
df_douala_clean['PRIX'] = df_douala_clean['PRIX'].apply(nettoyer_prix)
df_douala_clean['ville'] = 'Douala'

print(f"Avant nettoyage: {len(df_douala)} articles")
print(f"Apr√®s nettoyage: {len(df_douala_clean)} articles")
print(f"Prix nuls supprim√©s: {len(df_douala_clean[df_douala_clean['PRIX'] == 0])}")

Avant nettoyage: 61 articles
Apr√®s nettoyage: 61 articles
Prix nuls supprim√©s: 0


In [8]:
# Afficher quelques exemples de nettoyage
print("\nüìã Exemples de donn√©es nettoy√©es:")
print("\nYaound√© (5 premiers):")
df_yaound√©_clean[['DESIGNATIONS', 'PRIX', 'ville']].head()


üìã Exemples de donn√©es nettoy√©es:

Yaound√© (5 premiers):


Unnamed: 0,DESIGNATIONS,PRIX,ville
0,Cahiers de dessin 16 pages petit format,300,Yaound√©
1,Cahiers de dessin 32 pages petit format,500,Yaound√©
2,Cahiers de dessin 32 pages grand format,1000,Yaound√©
3,Paquet de cahier de dessin petit format,2000,Yaound√©
4,Paquet de cahier de dessin grand format,3500,Yaound√©


In [9]:
print("\nDouala (5 premiers):")
df_douala_clean[['DESIGNATIONS', 'PRIX', 'ville']].head()


Douala (5 premiers):


Unnamed: 0,DESIGNATIONS,PRIX,ville
0,Couvertures cahiers,100,Douala
1,Couvertures cahiers transparentes,100,Douala
2,Couvre-livres Adh√©sif rouleau (A),1500,Douala
3,Couvre-livres Adh√©sif rouleau (B),2000,Douala
4,Crayon BIC HB,1500,Douala


## 3. STANDARDISATION DES COLONNES

In [10]:
# Renommer les colonnes pour correspondre au sch√©ma de base
df_yaound√©_clean = df_yaound√©_clean.rename(columns={
    'DESIGNATIONS': 'designation',
    'PRIX': 'prix'
})

df_douala_clean = df_douala_clean.rename(columns={
    'DESIGNATIONS': 'designation', 
    'PRIX': 'prix'
})

print("‚úÖ Colonnes standardis√©es")

‚úÖ Colonnes standardis√©es


## 4. G√âN√âRATION DES CODES ARTICLES

In [11]:
# Fusionner temporairement pour cr√©er une liste unique d'articles
df_combined = pd.concat([
    df_yaound√©_clean[['designation']].assign(ville='Yaound√©'),
    df_douala_clean[['designation']].assign(ville='Douala')
], ignore_index=True)

# Identifier les articles uniques par d√©signation
articles_uniques = df_combined['designation'].unique()
print(f"Articles uniques identifi√©s: {len(articles_uniques)}")

# Cr√©er un mapping designation -> code
code_mapping = {}
for i, designation in enumerate(articles_uniques, 1):
    code_mapping[designation] = f"FOUR{i:04d}"

print(f"‚úÖ {len(code_mapping)} codes g√©n√©r√©s")

Articles uniques identifi√©s: 244
‚úÖ 244 codes g√©n√©r√©s


In [12]:
# Appliquer les codes aux dataframes
df_yaound√©_clean['code'] = df_yaound√©_clean['designation'].map(code_mapping)
df_douala_clean['code'] = df_douala_clean['designation'].map(code_mapping)

print("\nüìã Aper√ßu avec codes:")
print("\nYaound√©:")
df_yaound√©_clean[['code', 'designation', 'prix', 'ville']].head()

print("\nDouala:")
df_douala_clean[['code', 'designation', 'prix', 'ville']].head()


üìã Aper√ßu avec codes:

Yaound√©:

Douala:


Unnamed: 0,code,designation,prix,ville
0,FOUR0185,Couvertures cahiers,100,Douala
1,FOUR0186,Couvertures cahiers transparentes,100,Douala
2,FOUR0187,Couvre-livres Adh√©sif rouleau (A),1500,Douala
3,FOUR0188,Couvre-livres Adh√©sif rouleau (B),2000,Douala
4,FOUR0189,Crayon BIC HB,1500,Douala


## 5. CR√âATION DES TABLES FINALES

In [13]:
# Table articles_fournitures (articles uniques)
articles_fournitures = []
for designation, code in code_mapping.items():
    # Prendre le premier prix trouv√© (ou faire une moyenne)
    prix_yaound√© = df_yaound√©_clean[df_yaound√©_clean['designation'] == designation]['prix'].iloc[0] \
                   if len(df_yaound√©_clean[df_yaound√©_clean['designation'] == designation]) > 0 else 0
    
    articles_fournitures.append({
        'code': code,
        'designation': designation,
        'prix': prix_yaound√©,  # Prix de base (Yaound√©)
        'type_article': 'fourniture'
    })

df_articles_fournitures = pd.DataFrame(articles_fournitures)
print(f"‚úÖ Table articles_fournitures: {len(df_articles_fournitures)} articles")

‚úÖ Table articles_fournitures: 244 articles


In [14]:
# Table prix_fournitures_ville (prix par ville)
prix_par_ville = []

# Ajouter les prix de Yaound√©
for _, row in df_yaound√©_clean.iterrows():
    prix_par_ville.append({
        'code': row['code'],
        'ville': 'Yaound√©',
        'prix': row['prix']
    })

# Ajouter les prix de Douala
for _, row in df_douala_clean.iterrows():
    prix_par_ville.append({
        'code': row['code'],
        'ville': 'Douala', 
        'prix': row['prix']
    })

df_prix_ville = pd.DataFrame(prix_par_ville)
print(f"‚úÖ Table prix_fournitures_ville: {len(df_prix_ville)} entr√©es")

‚úÖ Table prix_fournitures_ville: 248 entr√©es


## 6. V√âRIFICATIONS ET STATISTIQUES

In [15]:
print("\nüìà Statistiques finales:")
print(f"\n‚Ä¢ Articles uniques: {len(df_articles_fournitures)}")
print(f"\n‚Ä¢ Prix par ville: {len(df_prix_ville)}")
print(f"\n‚Ä¢ Villes: {df_prix_ville['ville'].unique()}")


üìà Statistiques finales:

‚Ä¢ Articles uniques: 244

‚Ä¢ Prix par ville: 248

‚Ä¢ Villes: ['Yaound√©' 'Douala']


In [16]:
# V√©rifier les doublons
doublons_articles = df_articles_fournitures['code'].duplicated().sum()
doublons_prix = df_prix_ville[['code', 'ville']].duplicated().sum()
print(f"‚Ä¢ Doublons articles: {doublons_articles}")
print(f"‚Ä¢ Doublons prix-ville: {doublons_prix}")

‚Ä¢ Doublons articles: 0
‚Ä¢ Doublons prix-ville: 3


## 7. SAUVEGARDE DES FICHIERS FINAUX

In [17]:
# Sauvegarder les articles fournitures
df_articles_fournitures.to_csv(PROCESSED_DIR / "fournitures_final.csv", index=False)
print(f"‚úÖ Fichier sauvegard√©: {PROCESSED_DIR / 'fournitures_final.csv'}")

# Sauvegarde des prix par ville
df_prix_ville.to_csv(PROCESSED_DIR / "prix_fournitures_ville_final.csv", index=False)
print(f"‚úÖ Fichier sauvegard√©: {PROCESSED_DIR / 'prix_fournitures_ville_final.csv'}")

‚úÖ Fichier sauvegard√©: ../data/processed/final/fournitures_final.csv
‚úÖ Fichier sauvegard√©: ../data/processed/final/prix_fournitures_ville_final.csv


In [18]:
# Afficher un aper√ßu final
print("\nArticles fournitures:")
df_articles_fournitures.head(10)


Articles fournitures:


Unnamed: 0,code,designation,prix,type_article
0,FOUR0001,Cahiers de dessin 16 pages petit format,300,fourniture
1,FOUR0002,Cahiers de dessin 32 pages petit format,500,fourniture
2,FOUR0003,Cahiers de dessin 32 pages grand format,1000,fourniture
3,FOUR0004,Paquet de cahier de dessin petit format,2000,fourniture
4,FOUR0005,Paquet de cahier de dessin grand format,3500,fourniture
5,FOUR0006,Cahiers double ligne banane,200,fourniture
6,FOUR0007,Cahiers double ligne 32 pages,200,fourniture
7,FOUR0008,Paquet cahiers double ligne banane,4000,fourniture
8,FOUR0009,Paquet de cahiers double ligne 32 pages,2000,fourniture
9,FOUR0010,Cahiers de 50 pages,250,fourniture


In [19]:
print("\nPrix par ville:")
df_prix_ville.head(10)


Prix par ville:


Unnamed: 0,code,ville,prix
0,FOUR0001,Yaound√©,300
1,FOUR0002,Yaound√©,500
2,FOUR0003,Yaound√©,1000
3,FOUR0004,Yaound√©,2000
4,FOUR0005,Yaound√©,3500
5,FOUR0006,Yaound√©,200
6,FOUR0007,Yaound√©,200
7,FOUR0008,Yaound√©,4000
8,FOUR0009,Yaound√©,2000
9,FOUR0010,Yaound√©,250
