In [None]:
# Importation des librairies
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
df = pd.read_csv('/content/Sample - Superstore 1.csv', encoding='cp1252', sep=';')

In [None]:
df

In [None]:
# Affiche les premi√®res lignes du dataset
df.head()

In [None]:
# Info g√©n√©rales sur les types de variables
df.info()

In [None]:
# V√©rifie les valeurs manquantes
df.isnull().sum()

In [None]:
# Suppression des lignes contenant des valeurs nulles
df = df.dropna(subset=['Sales', 'Quantity', 'Discount', 'Profit'])

In [None]:
# V√©rification post-nettoyage
df.isnull().sum()

**Analyse quanti-quanti (corr√©lations)**

On va explorer les corr√©lations entre :

Sales (ventes)

Quantity (quantit√©)

Profit (marge)

In [None]:
# S√©lection des variables quantitatives
quanti_vars = ['Sales', 'Quantity', 'Profit']

In [None]:
# Matrice de corr√©lation
correlation_matrix = df[quanti_vars].corr()

In [None]:
# Affichage de la heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Corr√©lations entre variables quantitatives')
plt.show()

Les ventes ont une forte corr√©lation positive avec le profit (0.88), indiquant que maximiser les ventes augmente significativement la rentabilit√©. En revanche, la faible corr√©lation entre quantit√© et profit (0.13) sugg√®re que vendre plus d'unit√©s ne garantit pas de meilleures marges. Optimiser les ventes est crucial.

________________________________________________________________________________

**Analyse quali-quali (tableaux crois√©s)**

Exemple : relation entre Region et Category

In [None]:
# Tableau crois√© des fr√©quences
cross_tab = pd.crosstab(df['Region'], df['Category'])

In [None]:
# Affichage du tableau
cross_tab

## Interpr√©tation des Profits par Cat√©gorie et R√©gion

- **Dominance des Meubles** : La r√©gion **West** g√©n√®re le profit le plus √©lev√© dans la cat√©gorie **Furniture** (184), soulignant une forte demande.
- **Forte Performance des Fournitures de Bureau** : La cat√©gorie **Office Supplies** est √©galement performante, notamment dans les r√©gions **Central** (406) et **East** (457).
- **Opportunit√©s √† Explorer** : Les cat√©gories **Technology** et **South** montrent un potentiel de croissance, n√©cessitant des strat√©gies cibl√©es pour am√©liorer les ventes.

In [None]:
# Heatmap pour visualiser
sns.heatmap(cross_tab, annot=True, cmap='YlGnBu', fmt='d')
plt.title('Fr√©quences: R√©gion vs Cat√©gorie')
plt.show()

Central : Montre des profits vari√©s avec 124 (Meubles), 406 (Fournitures de Bureau), et 117 (Technologie), sugg√©rant une diversit√© de produits.

South : Les profits sont les plus bas dans cette r√©gion, avec 92 (Meubles), 284 (Fournitures de Bureau), et 88 (Technologie), n√©cessitant des strat√©gies d'am√©lioration.

West : En plus des Meubles, cette r√©gion maintient un bon niveau de performance dans les autres cat√©gories, ce qui en fait un march√© cl√©.

**Conclusion**
Les r√©sultats indiquent que certaines r√©gions et cat√©gories sont plus rentables que d'autres. Il est crucial de concentrer les efforts de marketing et de vente sur les cat√©gories performantes tout en explorant des strat√©gies pour am√©liorer les ventes dans les r√©gions moins rentables.

**Analyse quali-quanti (comparaison de moyennes)**

Exemple : moyenne des profits selon les segments de clients

In [None]:
# Moyenne de profit par segment
mean_profit_segment = df.groupby('Segment')['Profit'].mean().reset_index()

In [None]:
# Affichage
mean_profit_segment

In [None]:
# Boxplot pour visualiser la dispersion
sns.boxplot(x='Segment', y='Profit', data=df)
plt.title('Profit par Segment')
plt.show()

# Interpr√©tation des Profits par Segment

## Analyse des Profits
- **Segments de March√©** : Les segments analys√©s incluent **Consumer**, **Corporate**, et **Home Office**.
- **Tendances de Profit** :
- Le segment **Consumer** montre une performance notable, atteignant des profits proches de 8000, ce qui indique une forte demande dans ce march√©.
- Le segment **Corporate** semble √©galement performant, bien que les donn√©es sp√©cifiques ne soient pas fournies, il est raisonnable de supposer qu'il suit une tendance similaire.
- Le segment **Home Office** a des profits significativement plus bas, sugg√©rant une opportunit√© d'am√©lioration ou un besoin d'adaptation des strat√©gies marketing pour capter ce march√©.

## Conclusion
- Les r√©sultats indiquent que le segment **Consumer** est le plus rentable, tandis que les autres segments, bien qu'importants, n√©cessitent des strat√©gies cibl√©es pour maximiser leur potentiel. L'accent devrait √™tre mis sur l'augmentation des ventes dans le segment **Home Office** pour √©quilibrer les performances globales.

**Visualisation avanc√©e**

Scatter plot : Ventes vs Profit, color√© par R√©gion

In [None]:
sns.scatterplot(x='Sales', y='Profit', hue='Region', data=df)
plt.title('Sales vs Profit par R√©gion')
plt.show()

Voici une version plus courte de l'interpr√©tation :

# Interpr√©tation des Ventes et Profits par R√©gion

## Analyse des Donn√©es
- **Graphique** : Comparaison des ventes et profits pour les r√©gions **South**, **West**, **Central**, et **East**.

## Tendances Observ√©es
- **R√©gion South** : Ventes et profits faibles, indiquant des d√©fis ou une faible demande.
- **R√©gion West** : Ventes et profits √©lev√©s, sugg√©rant une forte performance commerciale.
- **R√©gion Central** : Ventes mod√©r√©es avec des profits raisonnables, indiquant une gestion efficace.
- **R√©gion East** : Ventes les plus √©lev√©es, mais √† v√©rifier si les profits sont √©galement satisfaisants.

## Conclusion
- Disparit√©s significatives entre les r√©gions. Une analyse approfondie est n√©cessaire pour optimiser les strat√©gies, en se concentrant sur l'am√©lioration des performances dans la r√©gion **South**.

In [None]:
sns.boxplot(x='Category', y='Profit', data=df)
plt.title('Profit par Cat√©gorie')
plt.show()

Voici une version plus courte de l'interpr√©tation :

# Interpr√©tation des Profits par Cat√©gorie

## Analyse des Donn√©es
- **Graphique** : Profits par cat√©gorie : **Furniture**, **Office Supplies**, et **Technology**.

## Tendances Observ√©es
- **Furniture** : Profits √©lev√©s, indiquant une forte demande.
- **Office Supplies** : Profits mod√©r√©s, sugg√©rant une concurrence accrue.
- **Technology** : Profits inf√©rieurs √† ceux de Furniture, possiblement dus √† des co√ªts √©lev√©s ou √† une demande variable.

## Conclusion
- Des diff√©rences significatives existent entre les cat√©gories. Une analyse approfondie est n√©cessaire pour optimiser les strat√©gies, surtout dans la cat√©gorie **Technology**.

***Analyse crois√©e multi-dimensionnelle***

**Objectif** :   
Croiser plusieurs variables pour trouver des insights plus fins et segmenter la performance commerciale.

**Profit moyen par R√©gion et** **Cat√©gorie**

In [None]:
# Groupement par R√©gion et Cat√©gorie
profit_region_category = df.groupby(['Region', 'Category'])['Profit'].mean().reset_index()

In [None]:
# Affichage
profit_region_category

In [None]:
# Visualisation en heatmap pivot√©e
pivot_profit = profit_region_category.pivot(index='Region', columns='Category', values='Profit')

# Affichage en heatmap
sns.heatmap(pivot_profit, annot=True, cmap='RdYlGn', fmt=".2f")
plt.title('Profit moyen par R√©gion et Cat√©gorie')
plt.show()


# Interpr√©tation des Profits Moyens par R√©gion et Cat√©gorie

Ce graphique pr√©sente les profits moyens par r√©gion (Central, East, South, West) et par cat√©gorie (Furniture, Office Supplies, Technology).

- **Central** : Meilleure performance avec des profits √©lev√©s, notamment en Furniture.
- **East** : Profits vari√©s, mais une bonne performance en Technology.
- **South** : Profits mod√©r√©s, surtout en Furniture.
- **West** : Profits les plus bas, n√©cessitant une attention particuli√®re.

Les diff√©rences soulignent la n√©cessit√© d'adapter les strat√©gies selon les r√©gions et les cat√©gories pour maximiser les profits.

In [None]:
# Somme du profit par produit
product_profit = df.groupby('Product Name')['Profit'].sum().reset_index()

# Tri d√©croissant
top_products = product_profit.sort_values(by='Profit', ascending=False).head(10)

# Affichage
top_products

In [None]:
# Barplot
sns.barplot(x='Profit', y='Product Name', data=top_products, palette='viridis')
plt.title('Top 10 Produits par Profit')
plt.show()

# Top 10 Produits par Profit

Ce graphique pr√©sente les dix produits les plus rentables. Parmi ceux-ci, on trouve des √©quipements vari√©s tels que le **Canon imageCLASS 2200** et le **Cubify CubeX 3D Printer**, avec des profits atteignant jusqu'√† 8000.

Les produits de bureau, comme le **GBC DocuBind P400** et le **Hewlett Packard Laserjet 3310**, montrent √©galement des performances solides.

Cette analyse souligne l'importance de ces produits pour la rentabilit√© globale, indiquant des opportunit√©s pour maximiser les ventes dans ces cat√©gories.

** Analyse du discount sur la rentabilit√©**

Hypoth√®se : Trop de discount = baisse du profit.

In [None]:
# Scatter plot Discount vs Profit
sns.scatterplot(x='Discount', y='Profit', data=df)
plt.title('Impact du Discount sur le Profit')
plt.show()

# Corr√©lation discount/profit
discount_corr = df[['Discount', 'Profit']].corr()
discount_corr


# Impact du Discount sur le Profit

Ce graphique illustre la relation entre le taux de r√©duction et le profit g√©n√©r√©. √Ä mesure que le discount augmente, le profit diminue, indiquant une tendance n√©gative.

Les profits passent de 8000 √† 0 en fonction de l'augmentation du discount, sugg√©rant que des r√©ductions excessives peuvent nuire √† la rentabilit√©.

Il est essentiel de trouver un √©quilibre entre offrir des r√©ductions attractives et maintenir des marges b√©n√©ficiaires saines pour optimiser les r√©sultats financiers.

**D√©tection de pertes** : Produits/r√©gions non rentables

In [None]:
# Filtrer les ventes avec profit n√©gatif
losses = df[df['Profit'] < 0]

# Regrouper par r√©gion et produit
losses_grouped = losses.groupby(['Region', 'Product Name'])['Profit'].sum().reset_index()

# Tri des pertes les plus importantes
top_losses = losses_grouped.sort_values(by='Profit').head(10)

# Affichage
top_losses

# Visualisation
sns.barplot(x='Profit', y='Product Name', data=top_losses, palette='Reds_r')
plt.title('Top 10 Produits les Moins Rentables par R√©gion')
plt.show()


Mod√©lisation pr√©dictive pour anticiper le profit

**Objectif **:

Pr√©dire le Profit √† partir de variables comme :

Sales

Quantity

Discount

Category, Region, etc. (quali ‚Üí √† encoder)


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.preprocessing import OneHotEncoder

# S√©lection des variables utiles
features = df[['Sales', 'Quantity', 'Discount', 'Category', 'Region']]
target = df['Profit']

# Encodage des variables qualitatives
features_encoded = pd.get_dummies(features, columns=['Category', 'Region'], drop_first=True)

# Split en train/test
X_train, X_test, y_train, y_test = train_test_split(features_encoded, target, test_size=0.2, random_state=42)


In [None]:
# Mod√®le
model = LinearRegression()
model.fit(X_train, y_train)

# Pr√©dictions
y_pred = model.predict(X_test)

# √âvaluation du mod√®le
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# R√©sultats d‚Äô√©valuation
df_results = pd.DataFrame({'MAE': [mae], 'R2_Score': [r2]})
df_results


In [None]:
# Coefficients du mod√®le
coef_df = pd.DataFrame({
    'Variable': X_train.columns,
    'Coefficient': model.coef_
}).sort_values(by='Coefficient', key=abs, ascending=False)

# Affichage des variables les plus influentes
coef_df


Interpr√©tation

Le discount a un impact positif significatif sur le profit.

Les cat√©gories "Office Supplies" et "Technology" contribuent √©galement aux profits.

Les r√©gions ont des effets vari√©s, avec la r√©gion Ouest ayant un impact n√©gatif.

### üìù R√©sultat & Recommandations ‚Äì Synth√®se (150 mots)

L‚Äôanalyse pr√©dictive montre que le mod√®le explique 80 % de la variance des profits avec une erreur moyenne de 41,55 unit√©s. Les variables influentes sont le **discount**, qui augmente significativement le profit, ainsi que les cat√©gories **Office Supplies** et **Technology**, fortement rentables. En revanche, la r√©gion **Ouest** r√©duit la rentabilit√©, n√©cessitant une strat√©gie adapt√©e. La **quantit√© vendue** a un l√©ger effet n√©gatif sur le profit, soulignant l‚Äôimportance d‚Äôune gestion pr√©cise des volumes.

**Recommandations** :
Optimiser les **politiques de discount** pour stimuler les ventes sans sacrifier la marge. Investir dans les **produits les plus rentables** et r√©ajuster la strat√©gie en r√©gion **Ouest**. Enfin, affiner les **pr√©visions de ventes** pour √©viter la surproduction et maximiser les marges.