In [None]:
# Importation des librairies
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
df = pd.read_csv('/content/Sample - Superstore 1.csv', encoding='cp1252', sep=';')

In [None]:
df

In [None]:
# Affiche les premières lignes du dataset
df.head()

In [None]:
# Info générales sur les types de variables
df.info()

In [None]:
# Vérifie les valeurs manquantes
df.isnull().sum()

In [None]:
# Suppression des lignes contenant des valeurs nulles
df = df.dropna(subset=['Sales', 'Quantity', 'Discount', 'Profit'])

In [None]:
# Vérification post-nettoyage
df.isnull().sum()

**Analyse quanti-quanti (corrélations)**

On va explorer les corrélations entre :

Sales (ventes)

Quantity (quantité)

Profit (marge)

In [None]:
# Sélection des variables quantitatives
quanti_vars = ['Sales', 'Quantity', 'Profit']

In [None]:
# Matrice de corrélation
correlation_matrix = df[quanti_vars].corr()

In [None]:
# Affichage de la heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Corrélations entre variables quantitatives')
plt.show()

Les ventes ont une forte corrélation positive avec le profit (0.88), indiquant que maximiser les ventes augmente significativement la rentabilité. En revanche, la faible corrélation entre quantité et profit (0.13) suggère que vendre plus d'unités ne garantit pas de meilleures marges. Optimiser les ventes est crucial.

________________________________________________________________________________

**Analyse quali-quali (tableaux croisés)**

Exemple : relation entre Region et Category

In [None]:
# Tableau croisé des fréquences
cross_tab = pd.crosstab(df['Region'], df['Category'])

In [None]:
# Affichage du tableau
cross_tab

## Interprétation des Profits par Catégorie et Région

- **Dominance des Meubles** : La région **West** génère le profit le plus élevé dans la catégorie **Furniture** (184), soulignant une forte demande.
- **Forte Performance des Fournitures de Bureau** : La catégorie **Office Supplies** est également performante, notamment dans les régions **Central** (406) et **East** (457).
- **Opportunités à Explorer** : Les catégories **Technology** et **South** montrent un potentiel de croissance, nécessitant des stratégies ciblées pour améliorer les ventes.

In [None]:
# Heatmap pour visualiser
sns.heatmap(cross_tab, annot=True, cmap='YlGnBu', fmt='d')
plt.title('Fréquences: Région vs Catégorie')
plt.show()

Central : Montre des profits variés avec 124 (Meubles), 406 (Fournitures de Bureau), et 117 (Technologie), suggérant une diversité de produits.

South : Les profits sont les plus bas dans cette région, avec 92 (Meubles), 284 (Fournitures de Bureau), et 88 (Technologie), nécessitant des stratégies d'amélioration.

West : En plus des Meubles, cette région maintient un bon niveau de performance dans les autres catégories, ce qui en fait un marché clé.

**Conclusion**
Les résultats indiquent que certaines régions et catégories sont plus rentables que d'autres. Il est crucial de concentrer les efforts de marketing et de vente sur les catégories performantes tout en explorant des stratégies pour améliorer les ventes dans les régions moins rentables.

**Analyse quali-quanti (comparaison de moyennes)**

Exemple : moyenne des profits selon les segments de clients

In [None]:
# Moyenne de profit par segment
mean_profit_segment = df.groupby('Segment')['Profit'].mean().reset_index()

In [None]:
# Affichage
mean_profit_segment

In [None]:
# Boxplot pour visualiser la dispersion
sns.boxplot(x='Segment', y='Profit', data=df)
plt.title('Profit par Segment')
plt.show()

# Interprétation des Profits par Segment

## Analyse des Profits
- **Segments de Marché** : Les segments analysés incluent **Consumer**, **Corporate**, et **Home Office**.
- **Tendances de Profit** :
- Le segment **Consumer** montre une performance notable, atteignant des profits proches de 8000, ce qui indique une forte demande dans ce marché.
- Le segment **Corporate** semble également performant, bien que les données spécifiques ne soient pas fournies, il est raisonnable de supposer qu'il suit une tendance similaire.
- Le segment **Home Office** a des profits significativement plus bas, suggérant une opportunité d'amélioration ou un besoin d'adaptation des stratégies marketing pour capter ce marché.

## Conclusion
- Les résultats indiquent que le segment **Consumer** est le plus rentable, tandis que les autres segments, bien qu'importants, nécessitent des stratégies ciblées pour maximiser leur potentiel. L'accent devrait être mis sur l'augmentation des ventes dans le segment **Home Office** pour équilibrer les performances globales.

**Visualisation avancée**

Scatter plot : Ventes vs Profit, coloré par Région

In [None]:
sns.scatterplot(x='Sales', y='Profit', hue='Region', data=df)
plt.title('Sales vs Profit par Région')
plt.show()

Voici une version plus courte de l'interprétation :

# Interprétation des Ventes et Profits par Région

## Analyse des Données
- **Graphique** : Comparaison des ventes et profits pour les régions **South**, **West**, **Central**, et **East**.

## Tendances Observées
- **Région South** : Ventes et profits faibles, indiquant des défis ou une faible demande.
- **Région West** : Ventes et profits élevés, suggérant une forte performance commerciale.
- **Région Central** : Ventes modérées avec des profits raisonnables, indiquant une gestion efficace.
- **Région East** : Ventes les plus élevées, mais à vérifier si les profits sont également satisfaisants.

## Conclusion
- Disparités significatives entre les régions. Une analyse approfondie est nécessaire pour optimiser les stratégies, en se concentrant sur l'amélioration des performances dans la région **South**.

In [None]:
sns.boxplot(x='Category', y='Profit', data=df)
plt.title('Profit par Catégorie')
plt.show()

Voici une version plus courte de l'interprétation :

# Interprétation des Profits par Catégorie

## Analyse des Données
- **Graphique** : Profits par catégorie : **Furniture**, **Office Supplies**, et **Technology**.

## Tendances Observées
- **Furniture** : Profits élevés, indiquant une forte demande.
- **Office Supplies** : Profits modérés, suggérant une concurrence accrue.
- **Technology** : Profits inférieurs à ceux de Furniture, possiblement dus à des coûts élevés ou à une demande variable.

## Conclusion
- Des différences significatives existent entre les catégories. Une analyse approfondie est nécessaire pour optimiser les stratégies, surtout dans la catégorie **Technology**.

***Analyse croisée multi-dimensionnelle***

**Objectif** :   
Croiser plusieurs variables pour trouver des insights plus fins et segmenter la performance commerciale.

**Profit moyen par Région et** **Catégorie**

In [None]:
# Groupement par Région et Catégorie
profit_region_category = df.groupby(['Region', 'Category'])['Profit'].mean().reset_index()

In [None]:
# Affichage
profit_region_category

In [None]:
# Visualisation en heatmap pivotée
pivot_profit = profit_region_category.pivot(index='Region', columns='Category', values='Profit')

# Affichage en heatmap
sns.heatmap(pivot_profit, annot=True, cmap='RdYlGn', fmt=".2f")
plt.title('Profit moyen par Région et Catégorie')
plt.show()


# Interprétation des Profits Moyens par Région et Catégorie

Ce graphique présente les profits moyens par région (Central, East, South, West) et par catégorie (Furniture, Office Supplies, Technology).

- **Central** : Meilleure performance avec des profits élevés, notamment en Furniture.
- **East** : Profits variés, mais une bonne performance en Technology.
- **South** : Profits modérés, surtout en Furniture.
- **West** : Profits les plus bas, nécessitant une attention particulière.

Les différences soulignent la nécessité d'adapter les stratégies selon les régions et les catégories pour maximiser les profits.

In [None]:
# Somme du profit par produit
product_profit = df.groupby('Product Name')['Profit'].sum().reset_index()

# Tri décroissant
top_products = product_profit.sort_values(by='Profit', ascending=False).head(10)

# Affichage
top_products

In [None]:
# Barplot
sns.barplot(x='Profit', y='Product Name', data=top_products, palette='viridis')
plt.title('Top 10 Produits par Profit')
plt.show()

# Top 10 Produits par Profit

Ce graphique présente les dix produits les plus rentables. Parmi ceux-ci, on trouve des équipements variés tels que le **Canon imageCLASS 2200** et le **Cubify CubeX 3D Printer**, avec des profits atteignant jusqu'à 8000.

Les produits de bureau, comme le **GBC DocuBind P400** et le **Hewlett Packard Laserjet 3310**, montrent également des performances solides.

Cette analyse souligne l'importance de ces produits pour la rentabilité globale, indiquant des opportunités pour maximiser les ventes dans ces catégories.

** Analyse du discount sur la rentabilité**

Hypothèse : Trop de discount = baisse du profit.

In [None]:
# Scatter plot Discount vs Profit
sns.scatterplot(x='Discount', y='Profit', data=df)
plt.title('Impact du Discount sur le Profit')
plt.show()

# Corrélation discount/profit
discount_corr = df[['Discount', 'Profit']].corr()
discount_corr


# Impact du Discount sur le Profit

Ce graphique illustre la relation entre le taux de réduction et le profit généré. À mesure que le discount augmente, le profit diminue, indiquant une tendance négative.

Les profits passent de 8000 à 0 en fonction de l'augmentation du discount, suggérant que des réductions excessives peuvent nuire à la rentabilité.

Il est essentiel de trouver un équilibre entre offrir des réductions attractives et maintenir des marges bénéficiaires saines pour optimiser les résultats financiers.

**Détection de pertes** : Produits/régions non rentables

In [None]:
# Filtrer les ventes avec profit négatif
losses = df[df['Profit'] < 0]

# Regrouper par région et produit
losses_grouped = losses.groupby(['Region', 'Product Name'])['Profit'].sum().reset_index()

# Tri des pertes les plus importantes
top_losses = losses_grouped.sort_values(by='Profit').head(10)

# Affichage
top_losses

# Visualisation
sns.barplot(x='Profit', y='Product Name', data=top_losses, palette='Reds_r')
plt.title('Top 10 Produits les Moins Rentables par Région')
plt.show()


Modélisation prédictive pour anticiper le profit

**Objectif **:

Prédire le Profit à partir de variables comme :

Sales

Quantity

Discount

Category, Region, etc. (quali → à encoder)


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.preprocessing import OneHotEncoder

# Sélection des variables utiles
features = df[['Sales', 'Quantity', 'Discount', 'Category', 'Region']]
target = df['Profit']

# Encodage des variables qualitatives
features_encoded = pd.get_dummies(features, columns=['Category', 'Region'], drop_first=True)

# Split en train/test
X_train, X_test, y_train, y_test = train_test_split(features_encoded, target, test_size=0.2, random_state=42)


In [None]:
# Modèle
model = LinearRegression()
model.fit(X_train, y_train)

# Prédictions
y_pred = model.predict(X_test)

# Évaluation du modèle
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Résultats d’évaluation
df_results = pd.DataFrame({'MAE': [mae], 'R2_Score': [r2]})
df_results


In [None]:
# Coefficients du modèle
coef_df = pd.DataFrame({
    'Variable': X_train.columns,
    'Coefficient': model.coef_
}).sort_values(by='Coefficient', key=abs, ascending=False)

# Affichage des variables les plus influentes
coef_df


Interprétation

Le discount a un impact positif significatif sur le profit.

Les catégories "Office Supplies" et "Technology" contribuent également aux profits.

Les régions ont des effets variés, avec la région Ouest ayant un impact négatif.

### 📝 Résultat & Recommandations – Synthèse (150 mots)

L’analyse prédictive montre que le modèle explique 80 % de la variance des profits avec une erreur moyenne de 41,55 unités. Les variables influentes sont le **discount**, qui augmente significativement le profit, ainsi que les catégories **Office Supplies** et **Technology**, fortement rentables. En revanche, la région **Ouest** réduit la rentabilité, nécessitant une stratégie adaptée. La **quantité vendue** a un léger effet négatif sur le profit, soulignant l’importance d’une gestion précise des volumes.

**Recommandations** :
Optimiser les **politiques de discount** pour stimuler les ventes sans sacrifier la marge. Investir dans les **produits les plus rentables** et réajuster la stratégie en région **Ouest**. Enfin, affiner les **prévisions de ventes** pour éviter la surproduction et maximiser les marges.