# Step 1: Understand the Dataset

### 1.Import the required libraries 

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import datetime as dt
import datetime as dt
import re
from fuzzywuzzy import fuzz


### 2.Load the dataset.

In [2]:
# Load the dataset
file_path = './Data/Project_datamining_final_data_03_12_an1.csv'
complete_data = pd.read_csv(file_path)


In [3]:
# Inspect the first few rows
complete_data.head()

Unnamed: 0,CleEffet,Date,TypeEffet,FamilleArticle,Code Produit,Reference Produit,NLot,Produit_Designation,DetailEffet_Designation,Quantite,PrixAchat,PrixUnitaireTTC,DetailEffet_Marge,Effet_Marge,MontantHT,Payement
0,1,8/14/2012,Bon d'entrée,Produit Insecticides,0305-004,0305,CHA110501,Produit_Anon_0,Detail_Anon_0,65.0,1650.0,9999.0,0.0,216310866.75,216310866.75,0.0
1,1,8/14/2012,Bon d'entrée,Matériel bovin,11250,0305,10.274.1.09,Produit_Anon_1,Detail_Anon_1,120.0,550.0,9999.0,0.0,216310866.75,216310866.75,0.0
2,1,8/14/2012,Bon d'entrée,Produit Insecticides,0305-039,0305,L110703,Produit_Anon_2,Detail_Anon_2,137.0,1034.0,9999.0,0.0,216310866.75,216310866.75,0.0
3,1,8/14/2012,Bon d'entrée,Produit Insecticides,2F18272093,2F18272093,2F18272093,Produit_Anon_3,Detail_Anon_3,2000.0,2800.0,9999.0,0.0,216310866.75,216310866.75,0.0
4,1,8/14/2012,Bon d'entrée,Produit Insecticides,0305-054,0305,20101102,Produit_Anon_4,Detail_Anon_4,3500.0,1550.0,9999.0,0.0,216310866.75,216310866.75,0.0


In [4]:
# Check data types
complete_data.dtypes

CleEffet                     int64
Date                        object
TypeEffet                   object
FamilleArticle              object
Code Produit                object
Reference Produit           object
NLot                        object
Produit_Designation         object
DetailEffet_Designation     object
Quantite                   float64
PrixAchat                   object
PrixUnitaireTTC             object
DetailEffet_Marge           object
Effet_Marge                 object
MontantHT                   object
Payement                    object
dtype: object

In [5]:
complete_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 261001 entries, 0 to 261000
Data columns (total 16 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   CleEffet                 261001 non-null  int64  
 1   Date                     261001 non-null  object 
 2   TypeEffet                261001 non-null  object 
 3   FamilleArticle           261001 non-null  object 
 4   Code Produit             160237 non-null  object 
 5   Reference Produit        135717 non-null  object 
 6   NLot                     228637 non-null  object 
 7   Produit_Designation      261001 non-null  object 
 8   DetailEffet_Designation  261001 non-null  object 
 9   Quantite                 261001 non-null  float64
 10  PrixAchat                261001 non-null  object 
 11  PrixUnitaireTTC          261001 non-null  object 
 12  DetailEffet_Marge        261001 non-null  object 
 13  Effet_Marge              261001 non-null  object 
 14  Mont

###### This output tells us:
the whole dataset has 261001 entries

Columns like CleEffet, Date, TypeEffet, etc., have 261,001 non-null values, meaning they have no missing values.

Columns like Code Produit, Reference Produit, and NLot have fewer non-null values, meaning they have missing value

# Step 2: Handle Missing Values

### Print the count of non-null values for each column

lets see which columns have missing values and how many.

In [6]:
# Check for missing values in each column
print(complete_data.isnull().sum())

CleEffet                        0
Date                            0
TypeEffet                       0
FamilleArticle                  0
Code Produit               100764
Reference Produit          125284
NLot                        32364
Produit_Designation             0
DetailEffet_Designation         0
Quantite                        0
PrixAchat                       0
PrixUnitaireTTC                 0
DetailEffet_Marge               0
Effet_Marge                     0
MontantHT                       0
Payement                        0
dtype: int64


###### This output tells us:

Code Produit has 100,764 missing values.

Reference Produit has 125,284 missing values.

NLot has 32,364 missing values.

All other columns have no missing values.

### 1.handling missing values in Code Produit

In [7]:
# Drop rows where 'Code Produit' is missing
#complete_data.dropna(subset=['Code Produit'], inplace=True)

# Check the count of non-null values again
print(complete_data.count())

CleEffet                   261001
Date                       261001
TypeEffet                  261001
FamilleArticle             261001
Code Produit               160237
Reference Produit          135717
NLot                       228637
Produit_Designation        261001
DetailEffet_Designation    261001
Quantite                   261001
PrixAchat                  261001
PrixUnitaireTTC            261001
DetailEffet_Marge          261001
Effet_Marge                261001
MontantHT                  261001
Payement                   261001
dtype: int64


### 2.Handle missing values in Reference Produit

In [8]:
# Fill missing values in 'Reference Produit' with 'Unknown'
complete_data['Reference Produit'] = complete_data['Reference Produit'].fillna('Unknown')

# Check the count of non-null values again
print(complete_data.count())

CleEffet                   261001
Date                       261001
TypeEffet                  261001
FamilleArticle             261001
Code Produit               160237
Reference Produit          261001
NLot                       228637
Produit_Designation        261001
DetailEffet_Designation    261001
Quantite                   261001
PrixAchat                  261001
PrixUnitaireTTC            261001
DetailEffet_Marge          261001
Effet_Marge                261001
MontantHT                  261001
Payement                   261001
dtype: int64


### 3.Handle Missing Values in NLot

In [9]:
# Fill missing values in 'NLot' with 'Unknown'
complete_data['NLot'] = complete_data['NLot'].fillna('Unknown')

# Check the count of non-null values again
print(complete_data.count())

CleEffet                   261001
Date                       261001
TypeEffet                  261001
FamilleArticle             261001
Code Produit               160237
Reference Produit          261001
NLot                       261001
Produit_Designation        261001
DetailEffet_Designation    261001
Quantite                   261001
PrixAchat                  261001
PrixUnitaireTTC            261001
DetailEffet_Marge          261001
Effet_Marge                261001
MontantHT                  261001
Payement                   261001
dtype: int64


# Step 3: Data Type Conversion

This step is crucial because it ensures that each column has the correct data type, which is essential for accurate analysis and modeling,Columns like Date should be in datetime format, and numerical columns like PrixAchat, PrixUnitaireTTC, etc., should be in float or int format.

### 1: Convert 'Date' to datetime

In [10]:
# Convert 'Date' to datetime
complete_data['Date'] = pd.to_datetime(complete_data['Date'])

# Check the data type of 'Date'
print(complete_data['Date'].dtype)

datetime64[ns]


### 2.Convert numerical columns to float

In [11]:
# List of numerical columns to convert
numerical_columns = ['PrixAchat', 'PrixUnitaireTTC', 'DetailEffet_Marge', 'Effet_Marge', 'MontantHT', 'Payement']

# Remove commas and convert to float
for col in numerical_columns:
    complete_data[col] = complete_data[col].str.replace(',', '').astype(float)

# Check the data types of numerical columns
print(complete_data[numerical_columns].dtypes)

PrixAchat            float64
PrixUnitaireTTC      float64
DetailEffet_Marge    float64
Effet_Marge          float64
MontantHT            float64
Payement             float64
dtype: object


### 3.Verify the changes

In [12]:
# Check the data types of all columns
print(complete_data.dtypes)

CleEffet                            int64
Date                       datetime64[ns]
TypeEffet                          object
FamilleArticle                     object
Code Produit                       object
Reference Produit                  object
NLot                               object
Produit_Designation                object
DetailEffet_Designation            object
Quantite                          float64
PrixAchat                         float64
PrixUnitaireTTC                   float64
DetailEffet_Marge                 float64
Effet_Marge                       float64
MontantHT                         float64
Payement                          float64
dtype: object


# Step 4: Handle Categorical Data

### 1.Standardize FamilleArticle

In [13]:
# Convert 'FamilleArticle' to lowercase and strip whitespace
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].str.lower().str.strip()

# Store unique values
unique_famille_articles = complete_data['FamilleArticle'].unique()

# Print the unique values
print("Unique values in 'FamilleArticle':")
print(unique_famille_articles)
len(unique_famille_articles)

Unique values in 'FamilleArticle':
['produit insecticides' 'matériel bovin' 'produit acaricides'
 'prouduits raticide + anti insect' 'produit engrais'
 'matériel de pompe 400 l' 'matériel apiculture' 'produit herbicides'
 'produit fongicides' 'semences courgette' 'courgette_hybride'
 'semences laitue' 'semences haricot' 'semences oignon' 'semences navet'
 'semences fenouil' 'semences petit pois' 'semences persil'
 'semences coriandre' 'semences celeri' 'semences artichaut'
 'semences poirée verte' 'semences concombre' 'detail'
 "materiels de l'arboriculture" 'matériel divers' 'pastèque_hybride'
 'matériels tronceneuses' 'matériel des moteur' 'poivron_hybride'
 'matériels joints membrane' 'matériels joints spi ou ressort'
 'matériel goûte à goûte' 'matériels du labour' "matériels d'irrigation"
 'matériel pulvérisation' 'matériel jardinage'
 'matériel outils de préparation de la terre' 'matériel avicole'
 'matériels de taille' 'semences tomate' 'chou-fleur_hybride'
 'semences pastèque' '

92

### we can noice that there are inconsistencies in the unique 82 values that should be handled ex :
"prouduits" vs. "produits" 
"semences" vs. "semencs"   
"matériel" vs. "matériels"



In [14]:
# Count the occurrences of each unique value in 'FamilleArticle'
famille_counts = complete_data['FamilleArticle'].value_counts()

# Print the counts
print("Counts of each unique value in 'FamilleArticle':")
print(famille_counts)

Counts of each unique value in 'FamilleArticle':
FamilleArticle
detail                  40243
produit engrais         24648
produit insecticides    20771
matériel apiculture     19080
produit fongicides      17612
                        ...  
semences artichaut         15
semmence poureau           12
plants pommier              3
semences braka              2
plants prunier              2
Name: count, Length: 92, dtype: int64


### We’ll identify families that start with similar prefixes (e.g., semence, matériel, produit) and standardize them. This will ensure consistency across the dataset.

### Standardize Families with "semence" Prefix
turning them all to semance

In [15]:
from rapidfuzz import fuzz

# Define a threshold for fuzzy matching
threshold = 80

# Function to standardize families with "semence" prefix
def standardize_semence(family):
    words = family.split()  # Split the family name into words
    # Check if the first or second word is similar to "semence"
    if len(words) > 0 and fuzz.ratio("semence", words[0]) >= threshold:
        words[0] = "semence"
    if len(words) > 1 and fuzz.ratio("semence", words[1]) >= threshold:
        words[1] = "semence"
    return ' '.join(words)

# Apply the function to the 'FamilleArticle' column
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_semence)

# Check the updated unique values
updated_unique_famille_articles = complete_data['FamilleArticle'].unique()
print("Updated unique values after standardizing 'semence':")
print(updated_unique_famille_articles)

Updated unique values after standardizing 'semence':
['produit insecticides' 'matériel bovin' 'produit acaricides'
 'prouduits raticide + anti insect' 'produit engrais'
 'matériel de pompe 400 l' 'matériel apiculture' 'produit herbicides'
 'produit fongicides' 'semence courgette' 'courgette_hybride'
 'semence laitue' 'semence haricot' 'semence oignon' 'semence navet'
 'semence fenouil' 'semence petit pois' 'semence persil'
 'semence coriandre' 'semence celeri' 'semence artichaut'
 'semence poirée verte' 'semence concombre' 'detail'
 "materiels de l'arboriculture" 'matériel divers' 'pastèque_hybride'
 'matériels tronceneuses' 'matériel des moteur' 'poivron_hybride'
 'matériels joints membrane' 'matériels joints spi ou ressort'
 'matériel goûte à goûte' 'matériels du labour' "matériels d'irrigation"
 'matériel pulvérisation' 'matériel jardinage'
 'matériel outils de préparation de la terre' 'matériel avicole'
 'matériels de taille' 'semence tomate' 'chou-fleur_hybride'
 'semence pastèque

### Standardize Families with "matériel" Prefix
Turning them all to matériel 

In [16]:
# Function to standardize families with "matériel" prefix
def standardize_materiel(family):
    words = family.split()  # Split the family name into words
    # Check if the first or second word is similar to "matériel"
    if len(words) > 0 and fuzz.ratio("matériel", words[0]) >= threshold:
        words[0] = "matériel"
    if len(words) > 1 and fuzz.ratio("matériel", words[1]) >= threshold:
        words[1] = "matériel"
    return ' '.join(words)

# Apply the function to the 'FamilleArticle' column
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_materiel)

# Check the updated unique values
updated_unique_famille_articles = complete_data['FamilleArticle'].unique()
print("Updated unique values after standardizing 'matériel':")
print(updated_unique_famille_articles)

Updated unique values after standardizing 'matériel':
['produit insecticides' 'matériel bovin' 'produit acaricides'
 'prouduits raticide + anti insect' 'produit engrais'
 'matériel de pompe 400 l' 'matériel apiculture' 'produit herbicides'
 'produit fongicides' 'semence courgette' 'courgette_hybride'
 'semence laitue' 'semence haricot' 'semence oignon' 'semence navet'
 'semence fenouil' 'semence petit pois' 'semence persil'
 'semence coriandre' 'semence celeri' 'semence artichaut'
 'semence poirée verte' 'semence concombre' 'detail'
 "matériel de l'arboriculture" 'matériel divers' 'pastèque_hybride'
 'matériel tronceneuses' 'matériel des moteur' 'poivron_hybride'
 'matériel joints membrane' 'matériel joints spi ou ressort'
 'matériel goûte à goûte' 'matériel du labour' "matériel d'irrigation"
 'matériel pulvérisation' 'matériel jardinage'
 'matériel outils de préparation de la terre' 'matériel avicole'
 'matériel de taille' 'semence tomate' 'chou-fleur_hybride'
 'semence pastèque' 'tom

### Standardize Families with "produit" Prefix

In [17]:
# Function to standardize families with "produit" prefix
def standardize_produit(family):
    words = family.split()  # Split the family name into words
    # Check if the first or second word is similar to "produit"
    if len(words) > 0 and fuzz.ratio("produit", words[0]) >= threshold:
        words[0] = "produit"
    if len(words) > 1 and fuzz.ratio("produit", words[1]) >= threshold:
        words[1] = "produit"
    return ' '.join(words)

# Apply the function to the 'FamilleArticle' column
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_produit)

# Check the updated unique values
updated_unique_famille_articles = complete_data['FamilleArticle'].unique()
print("Updated unique values after standardizing 'produit':")
print(updated_unique_famille_articles)

Updated unique values after standardizing 'produit':
['produit insecticides' 'matériel bovin' 'produit acaricides'
 'produit raticide + anti insect' 'produit engrais'
 'matériel de pompe 400 l' 'matériel apiculture' 'produit herbicides'
 'produit fongicides' 'semence courgette' 'courgette_hybride'
 'semence laitue' 'semence haricot' 'semence oignon' 'semence navet'
 'semence fenouil' 'semence petit pois' 'semence persil'
 'semence coriandre' 'semence celeri' 'semence artichaut'
 'semence poirée verte' 'semence concombre' 'detail'
 "matériel de l'arboriculture" 'matériel divers' 'pastèque_hybride'
 'matériel tronceneuses' 'matériel des moteur' 'poivron_hybride'
 'matériel joints membrane' 'matériel joints spi ou ressort'
 'matériel goûte à goûte' 'matériel du labour' "matériel d'irrigation"
 'matériel pulvérisation' 'matériel jardinage'
 'matériel outils de préparation de la terre' 'matériel avicole'
 'matériel de taille' 'semence tomate' 'chou-fleur_hybride'
 'semence pastèque' 'tomate

### After standardizing all prefixes, let’s verify the final unique values and their counts.

In [18]:
# Store the final unique values and counts
final_unique_famille_articles = complete_data['FamilleArticle'].unique()
final_famille_counts = complete_data['FamilleArticle'].value_counts()

# Print the final unique values
print("Final unique values in 'FamilleArticle':")
print(final_unique_famille_articles)

# Print the final counts
print("\nFinal counts of each unique value in 'FamilleArticle':")
print(final_famille_counts)

Final unique values in 'FamilleArticle':
['produit insecticides' 'matériel bovin' 'produit acaricides'
 'produit raticide + anti insect' 'produit engrais'
 'matériel de pompe 400 l' 'matériel apiculture' 'produit herbicides'
 'produit fongicides' 'semence courgette' 'courgette_hybride'
 'semence laitue' 'semence haricot' 'semence oignon' 'semence navet'
 'semence fenouil' 'semence petit pois' 'semence persil'
 'semence coriandre' 'semence celeri' 'semence artichaut'
 'semence poirée verte' 'semence concombre' 'detail'
 "matériel de l'arboriculture" 'matériel divers' 'pastèque_hybride'
 'matériel tronceneuses' 'matériel des moteur' 'poivron_hybride'
 'matériel joints membrane' 'matériel joints spi ou ressort'
 'matériel goûte à goûte' 'matériel du labour' "matériel d'irrigation"
 'matériel pulvérisation' 'matériel jardinage'
 'matériel outils de préparation de la terre' 'matériel avicole'
 'matériel de taille' 'semence tomate' 'chou-fleur_hybride'
 'semence pastèque' 'tomates_hybride' '

In [19]:
# Sort the unique values alphabetically
sorted_unique_famille_articles = sorted(final_unique_famille_articles)

# Print the sorted unique values
print("Final unique values in 'FamilleArticle' (sorted alphabetically):")
for famille in sorted_unique_famille_articles:
    print(famille)

Final unique values in 'FamilleArticle' (sorted alphabetically):
aliment de betail
aubergine_hybride
chou-fleur_hybride
concombre _hybride
courgette_hybride
des arbres
detail
divers de hsen
engrais soluble
fleur
grands sachets de ghazioui
homs
laitue_hybride
matériel apiculture
matériel avicole
matériel bovin
matériel d'irrigation
matériel de l'arboriculture
matériel de pompe 400 l
matériel de taille
matériel des moteur
matériel divers
matériel du labour
matériel goûte à goûte
matériel jardinage
matériel joints membrane
matériel joints spi ou ressort
matériel outils de préparation de la terre
matériel pulvérisation
matériel tronceneuses
melon_hybride
pastèque_hybride
piment_hybride
plante fruité divers
plantes olives
plants pommier
plants prunier
poivron_hybride
produit acaricides
produit apiculture
produit biostimulant
produit engrais
produit fongicides
produit herbicides
produit insecticides
produit molluscicides
produit raticide + anti insect
sachet potageur
semence artichaut
semenc

### we still can notice other inconsistencies 
1.plantes olives vs. plante (plural and singular form)

2.The parentheses and spacing in avesse( guerfala) are inconsistent. It should likely be avesse guerfala

3.The word tèrre has an incorrect accent. It should be pomme de terre.

4.The naming convention for hybrid products is inconsistent. Some use underscores (tomates_hybride), while others use spaces (courgette hybride). These should be standardized.

### Fix plantes or plant → plante

In [20]:
# Function to standardize "plante"-related families
def standardize_plante(family):
    words = family.split()  
    if len(words) > 0 and fuzz.ratio("plante", words[0]) >= 80:  
        words[0] = "plante"  
        # Singularize all words after "plante" that end with 's'
        for i in range(1, len(words)):
            if words[i].endswith('s'):
                words[i] = words[i][:-1]  # Remove the trailing 's'
    return ' '.join(words)

# Apply the function to the 'FamilleArticle' column
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_plante)

updated_unique_famille_articles = complete_data['FamilleArticle'].unique()
plant_related_values = [famille for famille in updated_unique_famille_articles if "plante" in famille]

print("Final standardized unique values for 'plante':")
for famille in sorted(plant_related_values):
    print(famille)


Final standardized unique values for 'plante':
plante fruité diver
plante olive
plante pommier
plante prunier


### Fix  parentheses ex:semence avesse( guerfala) → semence avesse guerfala

In [21]:
# Function to remove parentheses and standardize names
def standardize_parentheses(family):
    family = re.sub(r'\s*\(.*?\)\s*', ' ', family)
    family = ' '.join(family.split())
    return family

complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_parentheses)

updated_unique_famille_articles = complete_data['FamilleArticle'].unique()

# Print sorted unique values
sorted_unique_famille_articles = sorted(updated_unique_famille_articles)
print("Final standardized unique values (after removing parentheses):")
for famille in sorted_unique_famille_articles:
    print(famille)

Final standardized unique values (after removing parentheses):
aliment de betail
aubergine_hybride
chou-fleur_hybride
concombre _hybride
courgette_hybride
des arbres
detail
divers de hsen
engrais soluble
fleur
grands sachets de ghazioui
homs
laitue_hybride
matériel apiculture
matériel avicole
matériel bovin
matériel d'irrigation
matériel de l'arboriculture
matériel de pompe 400 l
matériel de taille
matériel des moteur
matériel divers
matériel du labour
matériel goûte à goûte
matériel jardinage
matériel joints membrane
matériel joints spi ou ressort
matériel outils de préparation de la terre
matériel pulvérisation
matériel tronceneuses
melon_hybride
pastèque_hybride
piment_hybride
plante fruité diver
plante olive
plante pommier
plante prunier
poivron_hybride
produit acaricides
produit apiculture
produit biostimulant
produit engrais
produit fongicides
produit herbicides
produit insecticides
produit molluscicides
produit raticide + anti insect
sachet potageur
semence artichaut
semence aub

### Fix semence pomme de tèrre → semence pomme de terre

In [22]:
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].replace('semence pomme de tèrre', 'semence pomme de terre')

### Fix Hybrid Naming Convention

In [23]:
# Replace spaces with underscores in hybrid names
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].str.replace('_', ' ')

### Verify the Changes

In [24]:
# Get the updated unique values
updated_unique_famille_articles = complete_data['FamilleArticle'].unique()

# Sort the unique values alphabetically
sorted_unique_famille_articles = sorted(updated_unique_famille_articles)

# Print the sorted unique values
print("Final unique values in 'FamilleArticle' (sorted alphabetically):")
for famille in sorted_unique_famille_articles:
    print(famille)

Final unique values in 'FamilleArticle' (sorted alphabetically):
aliment de betail
aubergine hybride
chou-fleur hybride
concombre  hybride
courgette hybride
des arbres
detail
divers de hsen
engrais soluble
fleur
grands sachets de ghazioui
homs
laitue hybride
matériel apiculture
matériel avicole
matériel bovin
matériel d'irrigation
matériel de l'arboriculture
matériel de pompe 400 l
matériel de taille
matériel des moteur
matériel divers
matériel du labour
matériel goûte à goûte
matériel jardinage
matériel joints membrane
matériel joints spi ou ressort
matériel outils de préparation de la terre
matériel pulvérisation
matériel tronceneuses
melon hybride
pastèque hybride
piment hybride
plante fruité diver
plante olive
plante pommier
plante prunier
poivron hybride
produit acaricides
produit apiculture
produit biostimulant
produit engrais
produit fongicides
produit herbicides
produit insecticides
produit molluscicides
produit raticide + anti insect
sachet potageur
semence artichaut
semence a

### We notice that the produit families still have inconsistencies in singular and plural forms (e.g., produit acaricides vs. produit engrais) 

### fixing produit

In [25]:
# Function to standardize "produit" families
def standardize_produit(family):
    words = family.split()  # Split the family name into words
    if len(words) > 1 and words[0] == "produit" and words[1].endswith('s'):
        words[1] = words[1][:-1]  # Remove the trailing 's'
    return ' '.join(words)

# Apply the function to the 'FamilleArticle' column
complete_data['FamilleArticle'] = complete_data['FamilleArticle'].apply(standardize_produit)

# Check the updated unique values
updated_unique_famille_articles = complete_data['FamilleArticle'].unique()

# Sort the unique values alphabetically
sorted_unique_famille_articles = sorted(updated_unique_famille_articles)

# Print the sorted unique values
print("Final unique values in 'FamilleArticle' (sorted alphabetically):")
for famille in sorted_unique_famille_articles:
    print(famille)

Final unique values in 'FamilleArticle' (sorted alphabetically):
aliment de betail
aubergine hybride
chou-fleur hybride
concombre hybride
courgette hybride
des arbres
detail
divers de hsen
engrais soluble
fleur
grands sachets de ghazioui
homs
laitue hybride
matériel apiculture
matériel avicole
matériel bovin
matériel d'irrigation
matériel de l'arboriculture
matériel de pompe 400 l
matériel de taille
matériel des moteur
matériel divers
matériel du labour
matériel goûte à goûte
matériel jardinage
matériel joints membrane
matériel joints spi ou ressort
matériel outils de préparation de la terre
matériel pulvérisation
matériel tronceneuses
melon hybride
pastèque hybride
piment hybride
plante fruité diver
plante olive
plante pommier
plante prunier
poivron hybride
produit acaricide
produit apiculture
produit biostimulant
produit engrai
produit fongicide
produit herbicide
produit insecticide
produit molluscicide
produit raticide + anti insect
sachet potageur
semence artichaut
semence aubergin

### The unique values for FamilleArticle seem to be consistent

### Now lets move to the other categorical varibale TypeEffet

### 1.Inspect the Unique Values

In [26]:
# Check unique values in 'TypeEffet'
print(complete_data['TypeEffet'].unique())

["Bon d'entrée" 'Bon de sortie' 'Bon de livraison' 'Bon de réception']


### TypeEffet has consistent values ( no typos, consistent capitalization)

# Step 5:Analysis of Column Importance

### we will start by Code Produit

we’ll analyze the missing data again in the other columns. This will help us decide if this columns should be dropped or handled differently.

In [27]:
# Check for missing values in all columns
missing_data = complete_data.isnull().sum()

# Display the number of missing values per column
print(missing_data)


CleEffet                        0
Date                            0
TypeEffet                       0
FamilleArticle                  0
Code Produit               100764
Reference Produit               0
NLot                            0
Produit_Designation             0
DetailEffet_Designation         0
Quantite                        0
PrixAchat                       0
PrixUnitaireTTC                 0
DetailEffet_Marge               0
Effet_Marge                     0
MontantHT                       0
Payement                        0
dtype: int64


we need to decide what to do with Code Produit since it has alot of missing values.
1.Drop the column
2.Impute missing values

### Investigating the relationship between missing Code Produit and other columns

In [28]:
# Check rows where 'Code Produit' is missing and see correlations with other columns
missing_code_produit_data = complete_data[complete_data['Code Produit'].isnull()]

# Check if other columns have missing values in rows where 'Code Produit' is missing
missing_code_produit_data.isnull().sum()


CleEffet                        0
Date                            0
TypeEffet                       0
FamilleArticle                  0
Code Produit               100764
Reference Produit               0
NLot                            0
Produit_Designation             0
DetailEffet_Designation         0
Quantite                        0
PrixAchat                       0
PrixUnitaireTTC                 0
DetailEffet_Marge               0
Effet_Marge                     0
MontantHT                       0
Payement                        0
dtype: int64

### Check Uniqueness Between Code Produit and Produit_Designation

In [29]:
# Group by 'Produit_Designation' and count unique 'Code Produit'
unique_code_per_produit = complete_data.groupby('Produit_Designation')['Code Produit'].nunique()

# Check if each 'Produit_Designation' has exactly one unique 'Code Produit'
print(unique_code_per_produit[unique_code_per_produit > 1])


Produit_Designation
Produit_Anon_1015      2
Produit_Anon_1043      3
Produit_Anon_1056      3
Produit_Anon_1061      2
Produit_Anon_1063      5
Produit_Anon_1102      3
Produit_Anon_1206      2
Produit_Anon_1238      2
Produit_Anon_1265      2
Produit_Anon_1301      2
Produit_Anon_1307      2
Produit_Anon_1312      2
Produit_Anon_1325      2
Produit_Anon_1345      2
Produit_Anon_1394      2
Produit_Anon_1424      2
Produit_Anon_1514      4
Produit_Anon_1537      2
Produit_Anon_1876      3
Produit_Anon_1896      3
Produit_Anon_1942      2
Produit_Anon_2117      2
Produit_Anon_2561      2
Produit_Anon_2653      2
Produit_Anon_2664      2
Produit_Anon_2693      2
Produit_Anon_3219      2
Produit_Anon_326       2
Produit_Anon_3344      2
Produit_Anon_3734      2
Produit_Anon_4097      2
Produit_Anon_4098      5
Produit_Anon_425       2
Produit_Anon_4324      2
Produit_Anon_4379      2
Produit_Anon_468     127
Produit_Anon_480       3
Produit_Anon_536       2
Produit_Anon_549       2
Produ

Produit_Designation values are associated with multiple Code Produit values.

### Check Uniqueness Between Code Produit and DetailEffet_Designation:

In [30]:
# Group by 'DetailEffet_Designation' and count unique 'Code Produit'
unique_code_per_detaileffet = complete_data.groupby('DetailEffet_Designation')['Code Produit'].nunique()

# Check if each 'DetailEffet_Designation' has exactly one unique 'Code Produit'
print(unique_code_per_detaileffet[unique_code_per_detaileffet > 1])


DetailEffet_Designation
Detail_Anon_1010     5
Detail_Anon_1015     2
Detail_Anon_10205    2
Detail_Anon_1037     2
Detail_Anon_1039     6
                    ..
Detail_Anon_949      2
Detail_Anon_9550     2
Detail_Anon_976      5
Detail_Anon_995      2
Detail_Anon_9982     2
Name: Code Produit, Length: 172, dtype: int64


DetailEffet_Designation values are associated with multiple Code Produit values.

Code Produit doesnt seem to be as an identifier for the row so we better drop the colum than droping the  the significat null rows
,it does not offer significant value for analysis due to its missing data and lack of uniqueness

In [31]:
complete_data = complete_data.drop(columns=['Code Produit'])

In [32]:
print(complete_data.columns)

Index(['CleEffet', 'Date', 'TypeEffet', 'FamilleArticle', 'Reference Produit',
       'NLot', 'Produit_Designation', 'DetailEffet_Designation', 'Quantite',
       'PrixAchat', 'PrixUnitaireTTC', 'DetailEffet_Marge', 'Effet_Marge',
       'MontantHT', 'Payement'],
      dtype='object')


### Now lets move to Produit_Designation and DetailEffet_Designation

to analyze whether the columns Produit_Designation and DetailEffet_Designation serve the same purpose and can be merged or one dropped

1.we check if all values in the Produit_Designation and DetailEffet_Designation columns have the prefixes Produit_Anon_ and Detail_Anon_ respectively

In [33]:

all_produit_have_prefix = complete_data['Produit_Designation'].str.startswith('Produit_Anon_').all()
all_detaileffet_have_prefix = complete_data['DetailEffet_Designation'].str.startswith('Detail_Anon_').all()

print(f"Do all 'Produit_Designation' values start with 'Produit_Anon_'? {all_produit_have_prefix}")
print(f"Do all 'DetailEffet_Designation' values start with 'Detail_Anon_'? {all_detaileffet_have_prefix}")

Do all 'Produit_Designation' values start with 'Produit_Anon_'? True
Do all 'DetailEffet_Designation' values start with 'Detail_Anon_'? True


2.we remove the prefixes and then check if the cleaned columns are identical.

In [34]:
complete_data['Produit_Designation'] = complete_data['Produit_Designation'].str.replace('Produit_Anon_', '')
complete_data['DetailEffet_Designation'] = complete_data['DetailEffet_Designation'].str.replace('Detail_Anon_', '')

are_columns_identical = complete_data['Produit_Designation'].equals(complete_data['DetailEffet_Designation'])

print(f"Are the columns identical after cleaning? {are_columns_identical}")

Are the columns identical after cleaning? False


Since the columns are not identical after cleaning, we can quantify how similar they are by calculating the percentage of uniqueness' .

In [35]:
# Get unique values of 'Produit_Designation'
unique_produit_designations = complete_data['Produit_Designation'].unique()

# Initialize counters
uniqueSum = 0
totalSum = 0
notUniqueSum = 0

# Iterate through each unique 'Produit_Designation'
for designation in unique_produit_designations:
    totalSum += 1
    subset_data = complete_data[complete_data['Produit_Designation'] == designation]
    
    # Count unique 'DetailEffet_Designation' values for the current 'Produit_Designation'
    unique_values_count = subset_data['DetailEffet_Designation'].nunique()
    
    if unique_values_count == 1:
        uniqueSum += 1
    else:
        notUniqueSum += 1

# Calculate percentages
print(f"Percentage of unique mappings (Produit_Designation -> DetailEffet_Designation): {uniqueSum/totalSum*100}%")
print(f"Percentage of not unique mappings (Produit_Designation -> DetailEffet_Designation): {notUniqueSum/totalSum*100}%")

Percentage of unique mappings (Produit_Designation -> DetailEffet_Designation): 70.6574024585783%
Percentage of not unique mappings (Produit_Designation -> DetailEffet_Designation): 29.3425975414217%


This suggests that in most cases (70.66%), Produit_Designation can uniquely determine DetailEffet_Designation. and 29.34% of the time, Produit_Designation maps to multiple DetailEffet_Designation values.




 thus we will proceed by droping DetailEffet_Designation

In [36]:
complete_data = complete_data.drop(columns=['DetailEffet_Designation'])

complete_data.columns

Index(['CleEffet', 'Date', 'TypeEffet', 'FamilleArticle', 'Reference Produit',
       'NLot', 'Produit_Designation', 'Quantite', 'PrixAchat',
       'PrixUnitaireTTC', 'DetailEffet_Marge', 'Effet_Marge', 'MontantHT',
       'Payement'],
      dtype='object')

In [37]:
complete_data.head()

Unnamed: 0,CleEffet,Date,TypeEffet,FamilleArticle,Reference Produit,NLot,Produit_Designation,Quantite,PrixAchat,PrixUnitaireTTC,DetailEffet_Marge,Effet_Marge,MontantHT,Payement
0,1,2012-08-14,Bon d'entrée,produit insecticide,0305,CHA110501,0,65.0,1650.0,9999.0,0.0,216310900.0,216310900.0,0.0
1,1,2012-08-14,Bon d'entrée,matériel bovin,0305,10.274.1.09,1,120.0,550.0,9999.0,0.0,216310900.0,216310900.0,0.0
2,1,2012-08-14,Bon d'entrée,produit insecticide,0305,L110703,2,137.0,1034.0,9999.0,0.0,216310900.0,216310900.0,0.0
3,1,2012-08-14,Bon d'entrée,produit insecticide,2F18272093,2F18272093,3,2000.0,2800.0,9999.0,0.0,216310900.0,216310900.0,0.0
4,1,2012-08-14,Bon d'entrée,produit insecticide,0305,20101102,4,3500.0,1550.0,9999.0,0.0,216310900.0,216310900.0,0.0


In [38]:
complete_data.dtypes

CleEffet                        int64
Date                   datetime64[ns]
TypeEffet                      object
FamilleArticle                 object
Reference Produit              object
NLot                           object
Produit_Designation            object
Quantite                      float64
PrixAchat                     float64
PrixUnitaireTTC               float64
DetailEffet_Marge             float64
Effet_Marge                   float64
MontantHT                     float64
Payement                      float64
dtype: object

In [39]:
csv_file_path = './Data/Prepocessing1_data.csv'

complete_data.to_csv(csv_file_path, index=False)

print(f'DataFrame has been successfully written to {csv_file_path}')

DataFrame has been successfully written to ./Data/Prepocessing1_data.csv
