# Objectif du Projet 

L’objectif principal de ce projet consiste, dans un premier temps, à analyser les données de
ventes mensuelles d’une entreprise. Ensuite, entreprendre la segmentation des clients, et enfin,
nous développer un modèle de machine learning afin de prédire la valeur à vie de chaque client..

# Partie A :

La direction marketing vous soumet un dossier nommé données_ventes qui contient
plusieurs fichiers.Leur souhait est d’avoir des informations pertinentes de leur activités basées
sur les données.
1. Avec un script python, récupérer touts les fichiers qui sont dans le dossier et stocker
les dans un fichier csv que vous nommez data .
2. Charger le fichier csv enregistré et essayer de répondre aux questions suivantes en
faisant les transformations nécessaires. Pour des raisons d’analyse, vous pouvez sup-
primer toutes les valeurs manquantes. Choisissez un type de graphe pour visualiser
chaque résultat.
3. Quel est le mois durant le quel l’entreprise a realisé le meilleur chiffre d’affaire ?
4. Dans quelle ville, l’entreprise a enregistré le maximum de commandes ?
5. En quel moment doit on faire une campagne de publicité pour avoir plus de ventes ?
6. Quel est le produit qui est plus vendu ? Essayer d’expliquer pourquoi il est plus vendu ?
7. Quelles sont les combinaisons de produits qui se vendent le plus ?
8. Vous pourriez répondre à d’autres questions si nécessaires.

## 1. Avec un script python, récupérer touts les fichiers qui sont dans le dossier et stocker les dans un fichier csv que vous nommez data .

In [None]:
import pandas as pd

In [None]:
tab_name = ["données_ventes/Sales_January_2019.csv",
            "données_ventes/Sales_February_2019.csv",
            "données_ventes/Sales_March_2019.csv",
            "données_ventes/Sales_April_2019.csv", 
            "données_ventes/Sales_May_2019.csv",
            "données_ventes/Sales_June_2019.csv",
            "données_ventes/Sales_July_2019.csv",
            "données_ventes/Sales_August_2019.csv",
            "données_ventes/Sales_September_2019.csv",
            "données_ventes/Sales_October_2019.csv",
            "données_ventes/Sales_November_2019.csv",
            "données_ventes/Sales_December_2019.csv"
           ]
data = []

In [None]:
# Parcourir les fichiers, les lire et les ajouter à la liste data
for element in tab_name:
    df = pd.read_csv(element, sep=",")
    data.append(df)
    

# Concaténer les DataFrames de la liste data en un seul DataFrame
combined_data = pd.concat(data, ignore_index=True)

# Enregistrer le DataFrame combiné dans un fichier CSV
combined_data.to_csv("data.csv", index=False, header=True)

## 2. Charger le fichier csv enregistré et essayer de répondre aux questions suivantes en faisant les transformations nécessaires. Pour des raisons d’analyse, vous pouvez supprimer toutes les valeurs manquantes. Choisissez un type de graphe pour visualiser chaque résultat.

In [None]:
data = pd.read_csv("data.csv", sep=",")
data.head()
print(data.groupby('Order ID')["Order ID"].count()) 
data.info()

In [None]:
data.isnull().sum()

In [None]:
data.isna().sum()

In [None]:
data.dropna(inplace=True)
data.isna().sum()

In [None]:
data.info()

In [None]:
# Convertir 'Quantity Ordered' en nombre entier
data['Quantity Ordered'] = pd.to_numeric(data['Quantity Ordered'], errors='coerce')

# Convertir 'Price Each' en nombre décimal
data['Price Each'] = pd.to_numeric(data['Price Each'], errors='coerce')

# # Convertir 'Order Date' en datetime
# data['Order Date'] = pd.to_datetime(data['Order Date'], format='%m/%d/%y %H:%M')

# Vérifier les types de données mis à jour
data.info()


In [1]:
# Supprimer les lignes où 'Order Date' est égal à 'Order Date'
data = data[data['Order Date'] != 'Order Date']

# Convertir 'Order Date' en datetime avec le format correct
data['Order Date'] = pd.to_datetime(data['Order Date'], format='%m/%d/%y %H:%M')

# Vérifier les types de données mis à jour
data.info()


NameError: name 'data' is not defined

In [None]:
data.describe()

Count : Cela indique le nombre total d'observations non nulles dans chaque colonne. Vous avez 1 859 500 entrées non nulles pour 'Quantity Ordered' et 'Price Each'.

Mean : C'est la moyenne des valeurs dans chaque colonne. Par exemple, la moyenne du nombre d'articles commandés ('Quantity Ordered') est d'environ 1,12, ce qui signifie en moyenne un peu plus d'un article est commandé à la fois.

Std (écart type) : Cela mesure la dispersion des données autour de la moyenne. Par exemple, l'écart type du prix de chaque article ('Price Each') est d'environ 332,73, ce qui indique une grande variabilité des prix.

Min : Il s'agit de la valeur minimale dans chaque colonne. Par exemple, le nombre minimum d'articles commandés est 1, et le prix minimum est 2,99.

25% : Ceci représente le premier quartile, ce qui signifie que 25% des valeurs sont inférieures à ce seuil. Par exemple, le 25e percentile pour le prix de chaque article est d'environ 11,95.

50% (médiane) : C'est la valeur médiane, qui divise les données en deux parties égales. Par exemple, la médiane du prix de chaque article est d'environ 14,95.

75% : Ceci représente le troisième quartile, ce qui signifie que 75% des valeurs sont inférieures à ce seuil. Par exemple, le 75e percentile pour le prix de chaque article est d'environ 150.

Max : Il s'agit de la valeur maximale dans chaque colonne. Par exemple, la quantité maximale commandée est 9, et le prix maximum est 1 700.

In [None]:
# Diviser l'adresse en adresse, ville et code postal
data[['Adresse', 'Ville', 'Code Postal']] = data['Purchase Address'].str.split(', ', n=2).apply(lambda x: pd.Series([x[0], x[1], x[2]]))

# Afficher les premières lignes pour vérification
print(data[['Adresse', 'Ville', 'Code Postal']].head(5))


In [None]:
data.head()

## 3. Quel est le mois durant le quel l’entreprise a realisé le meilleur chiffre d’affaire ?

In [None]:
#Créer une nouvelle colonne "Chiffre d'Affaires" en multipliant la quantité commandée ("Quantity Ordered") par le prix unitaire ("Price Each") pour chaque ligne.
data['Chiffre d\'Affaires'] = data['Quantity Ordered'] * data['Price Each']

#Extraire le mois à partir de la colonne "Order Date" et le stocker dans une nouvelle colonne "Mois".
data["Month"] = data["Order Date"].dt.month

#Regrouper les données par mois et calculer le chiffre d'affaires total pour chaque mois.
chiffre_affaires_mois = data.groupby('Month')['Chiffre d\'Affaires'].sum()

#Trouver le mois avec le chiffre d'affaires le plus élevé.
mois_meilleur_chiffre_affaires = chiffre_affaires_mois.idxmax()

#Afficher le mois avec le meilleur chiffre d'affaires.
print("Le mois avec le meilleur chiffre d'affaires est le mois", mois_meilleur_chiffre_affaires, "et sa valeur est :", chiffre_affaires_mois[mois_meilleur_chiffre_affaires])


In [None]:
import matplotlib.pyplot as plt

# Créer un graphique en barres pour afficher le chiffre d'affaires par mois
mois = range(1, 13)  # Mois de 1 à 12

plt.figure(figsize=(12, 6))  # Ajuster la taille du graphique

# Crée un graphique en barres avec les mois sur l'axe des x et le chiffre d'affaires sur l'axe des y
plt.bar(mois, chiffre_affaires_mois)

# Configurer l'axe des x pour afficher les mois
plt.xticks(mois)
plt.xlabel('Mois')

# Étiqueter l'axe des y
plt.ylabel('Chiffre d\'Affaires ($)')

# Ajouter un titre au graphique
plt.title('Chiffre d\'Affaires par Mois')

# Afficher le mois avec le meilleur chiffre d'affaires en tant qu'annotation
plt.annotate(f'Meilleur mois : {mois_meilleur_chiffre_affaires}',
             xy=(mois_meilleur_chiffre_affaires, chiffre_affaires_mois[mois_meilleur_chiffre_affaires]),
             xytext=(7, 3000000),  # Position du texte d'annotation
             arrowprops=dict(arrowstyle='->', color='red'))  # Flèche pour l'annotation

# Afficher le graphique
plt.show()


## 4. Dans quelle ville, l’entreprise a enregistré le maximum de commandes ?

In [None]:
data.head(10)

In [None]:
data

In [None]:
data.info()

On voit que nous avons 185950 ligne ou Order ID est non null ce qui correspond au nombre total de ligne que nous avons. Donc nous pouvons affirmer que chaque ligne est commande

In [None]:
# Regrouper les données par ville et calculer le nombre total de commandes pour chaque ville.
nombre_commande_ville = data.groupby("Ville")["Order ID"].nunique()
print(nombre_commande_ville)

# Trouver la ville avec le maximum de commandes
ville_max_commandes = nombre_commande_ville.idxmax()

# Afficher la ville avec le maximum de commandes
print(f"Dans quelle ville l'entreprise a enregistré le maximum de commandes ? Réponse : {ville_max_commandes}")


In [None]:
# Créer un graphique en barres pour afficher le nombre de commandes par ville
villes = nombre_commande_ville.index
nombre_de_commandes = nombre_commande_ville.values

plt.figure(figsize=(12, 6))  # Ajuster la taille du graphique
plt.bar(villes, nombre_de_commandes)
plt.xlabel('Ville')
plt.ylabel('Nombre de Commandes')
plt.title('Nombre de Commandes par Ville')

# Ajouter une annotation pour indiquer la ville avec le maximum de commandes
plt.annotate(f'Maximum : {ville_max_commandes}',
             xy=(ville_max_commandes, nombre_commande_ville[ville_max_commandes]),
             xytext=(3, 20000),  # Position du texte d'annotation
             arrowprops=dict(arrowstyle='->', color='red'))  # Flèche pour l'annotation

plt.xticks(rotation=45)  # Faire pivoter les étiquettes de l'axe des x pour une meilleure lisibilité

plt.tight_layout()
plt.show()

## 5. En quel moment doit on faire une campagne de publicité pour avoir plus de ventes ?

In [None]:
# Ajoutez des colonnes mois deja fait.

# Regroupement des données par mois et calcule du chiffre d'affaires total pour chaque mois deja fait.
print(chiffre_affaires_mois)

# Graphique en lignes pour visualiser l'évolution du chiffre d'affaires au fil des mois.

plt.figure(figsize=(12, 6))
plt.plot(chiffre_affaires_mois.index, chiffre_affaires_mois.values, marker='o')
plt.xlabel('Mois)')
plt.ylabel('Chiffre d\'Affaires ($)')
plt.title('Évolution du Chiffre d\'Affaires par Mois')
plt.grid(True)
plt.show()


Nous avons identifié les mois où il y a des pics de chiffre d'affaires, notamment en avril, octobre et décembre. Ces pics peuvent indiquer des périodes de pointe où l'entreprise réalise de meilleures ventes.

En fonction de ces observations, voici quelques recommandations pour lancer des campagnes de publicité :

Avril : Il y a un pic en avril, ce qui suggère que c'est une période où les ventes sont généralement bonnes. Vous pourriez envisager de lancer une campagne de publicité pour capitaliser sur cette période de pointe.

Octobre : Le mois d'octobre montre également une augmentation significative du chiffre d'affaires. Il peut être judicieux de prévoir une campagne de marketing pour stimuler davantage les ventes pendant cette période.

Décembre : En décembre, le chiffre d'affaires atteint son maximum. C'est une période clé pour les ventes en raison des fêtes de fin d'année. Il est fortement recommandé de planifier une campagne de publicité stratégique pour maximiser les ventes pendant la période des fêtes.

## 6. Quel est le produit qui est plus vendu ? Essayer d’expliquer pourquoi il est plus vendu ?

In [None]:
# Regroupez les données par produit et calculez la quantité totale vendue de chaque produit.

produits_plus_vendus = data.groupby('Product')["Quantity Ordered"].sum().reset_index()

# Triez les produits en fonction de la quantité totale vendue pour déterminer celui qui est le plus vendu.
produit_plus_vendu = produits_plus_vendus.sort_values(by = "Quantity Ordered", ascending=False).iloc[0]

# Affichez le produit le plus vendu et la quantité totale vendue.
produit_max_vendu = produit_plus_vendu["Product"]
quantite_max_vendue = produit_plus_vendu["Quantity Ordered"]
print(f"Le produit le plus vendu est '{produit_max_vendu}' avec une quantité totale vendue de {quantite_max_vendue} unités", "son prix est", data[data["Product"]== produit_max_vendu]["Price Each"].iloc[0] )


Pour expliquer pourquoi ce produit est le plus vendu, voici quelques raisons possibles :

Nécessité courante : Les piles AAA sont des articles couramment utilisés dans de nombreux appareils électroniques grand public, tels que les télécommandes, les jouets, les horloges, etc. En tant qu'articles de première nécessité, ils sont souvent achetés en grandes quantités.

Prix abordable : Le prix de 2,99 dollars par paquet de 4 piles est abordable, ce qui encourage les clients à acheter en vrac.

Consommation fréquente : Étant donné que les piles s'épuisent avec le temps, les clients ont tendance à les acheter régulièrement, ce qui stimule les ventes continues.

Pas de saisonnalité : Contrairement à certains produits qui peuvent connaître des variations saisonnières, les piles AAA sont en demande toute l'année.

Compatibilité universelle : Les piles AAA sont compatibles avec de nombreux appareils, ce qui les rend polyvalentes et populaires.

Besoin quotidien : Les piles sont souvent nécessaires pour alimenter des appareils quotidiens, ce qui signifie que les clients les achètent régulièrement.

Dans l'ensemble, la combinaison de la demande constante, de l'abordabilité et de la polyvalence fait des piles AAA un produit populaire et le plus vendu dans votre ensemble de données. Cela souligne l'importance de comprendre les besoins des clients et de proposer des produits adaptés à leurs besoins quotidiens.

## 7. Quelles sont les combinaisons de produits qui se vendent le plus ?

In [None]:
# Groupement des produits par commande et création de la colonne "Product Combinaison"
data['Product Combinaison'] = data.groupby('Order ID')['Product'].transform(lambda x: ', '.join(x))

# Suppression des doublons dans la colonne "Order ID" pour éviter la duplication
data.drop_duplicates(subset=['Order ID'], inplace=True)

# Affichage des combinaisons de produits
print(data['Product Combinaison'])


In [None]:
datafiltered = data[data["Product Combinaison"].str.count(',') > 1]
datafiltered.drop_duplicates(subset=["Order ID"], inplace=True)
combinaisons_vendues = datafiltered.groupby('Product Combinaison')['Order ID'].count().reset_index()
print(combinaisons_vendues)
combinaisons_plus_vendues = combinaisons_vendues.sort_values(by='Order ID', ascending=False).iloc[0]
combinaison_max_vendue = combinaisons_plus_vendues['Product Combinaison']
nombre_total_commandes = combinaisons_plus_vendues['Order ID']

print(f"Les combinaisons de produits les plus vendues sont : '{combinaison_max_vendue}' avec un nombre total de {nombre_total_commandes} commandes.")


## 8. Vous pourriez répondre à d’autres questions si nécessaires.

In [None]:
# Regrouper les ventes par ville ou état
city_sales = data.groupby('Ville')['Chiffre d\'Affaires'].sum()
# state_sales = data.groupby('Code Postal')['Total Sales'].sum()

# Tracer un graphique des ventes par ville ou état
import matplotlib.pyplot as plt
plt.figure(figsize=(12, 6))
city_sales.sort_values(ascending=False).plot(kind='bar')
plt.xlabel('Ville')
plt.ylabel('Ventes totales')
plt.title('Ventes par ville')
plt.xticks(rotation=90)
plt.show()


In [None]:
# Regrouper les ventes par produit et mois
product_monthly_sales = data.groupby(['Product', 'Month'])['Quantity Ordered'].sum().unstack()
print(product_monthly_sales)
# Tracer un graphique des tendances de vente des produits
product_monthly_sales.plot(kind='line', figsize=(12, 6))
plt.xlabel('Mois')
plt.ylabel('Quantité vendue')
plt.title('Tendances de vente des produits par mois')
plt.xticks(range(1, 13))
plt.legend(title='Produit', loc='center left', bbox_to_anchor=(1, 0.5))
plt.fig
plt.grid(True)
plt.show()


In [None]:
import matplotlib.pyplot as plt

# Créer un sous-ensemble de données avec les colonnes 'Product' et 'Price Each'
price_data = data[['Product', 'Price Each']]

# Supprimer les doublons de produits pour éviter la double comptabilisation
price_data = price_data.drop_duplicates(subset=['Product'])

# Tracer un nuage de points pour visualiser la relation entre le prix et les ventes
plt.figure(figsize=(14, 6))
plt.scatter(price_data['Price Each'], price_data['Product'], s=10)
plt.xlabel('Prix par unité')
plt.ylabel('Produit')
plt.title('Relation entre les prix et les produits')
plt.xticks(rotation=90)
plt.grid(True)
plt.show()


In [None]:
# Calculer la corrélation entre le prix et les ventes
correlation = price_data['Price Each'].corr(price_data['Product'])

print(f"La corrélation entre le prix et les ventes est : {correlation:.2f}")


In [None]:
import matplotlib.pyplot as plt

# Analyse 1 : Identifier les produits les plus vendus chaque mois
top_products_by_month = data.groupby(['Month', 'Product'])['Quantity Ordered'].sum().reset_index()
top_products_by_month = top_products_by_month.loc[top_products_by_month.groupby('Month')['Quantity Ordered'].idxmax()]

# Analyse 2 : Analyser les tendances saisonnières
product_monthly_sales = data.groupby(['Product', 'Month'])['Quantity Ordered'].sum().unstack()

# Analyse 3 : Comparer la performance des produits tout au long de l'année
total_sales_by_product = data.groupby('Product')['Quantity Ordered'].sum().sort_values(ascending=False)

# Analyse 4 : Calculer le chiffre d'affaires total mensuel
monthly_revenue = data.groupby('Month')['Sales'].sum()

# Affichage des résultats
print("Produits les plus vendus chaque mois :")
print(top_products_by_month)

print("\nTotal des ventes par produit :")
print(total_sales_by_product)

print("\nChiffre d'affaires total mensuel :")
print(monthly_revenue)

# Tracer un graphique des tendances de vente des produits
product_monthly_sales.plot(kind='line', figsize=(12, 6))
plt.xlabel('Mois')
plt.ylabel('Quantité vendue')
plt.title('Tendances de vente des produits par mois')
plt.xticks(range(1, 13))
plt.legend(title='Produit', loc='center left', bbox_to_anchor=(1, 0.5))
plt.grid(True)
plt.show()
