In [2]:
import pandas as pd 
import plotly.express as px
import sketch 

In [3]:
sales_data = pd.read_csv("AmazonSalesData.csv")

In [4]:
sales_data.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Australia and Oceania,Tuvalu,Baby Food,Offline,H,5/28/2010,669165933,6/27/2010,9925,255.28,159.42,2533654.0,1582243.5,951410.5
1,Central America and the Caribbean,Grenada,Cereal,Online,C,8/22/2012,963881480,9/15/2012,2804,205.7,117.11,576782.8,328376.44,248406.36
2,Europe,Russia,Office Supplies,Offline,L,5/2/2014,341417157,5/8/2014,1779,651.21,524.96,1158502.59,933903.84,224598.75
3,Sub-Saharan Africa,Sao Tome and Principe,Fruits,Online,C,6/20/2014,514321792,7/5/2014,8102,9.33,6.92,75591.66,56065.84,19525.82
4,Sub-Saharan Africa,Rwanda,Office Supplies,Offline,L,2/1/2013,115456712,2/6/2013,5062,651.21,524.96,3296425.02,2657347.52,639077.5


In [5]:
sales_data.columns

Index(['Region', 'Country', 'Item Type', 'Sales Channel', 'Order Priority',
       'Order Date', 'Order ID', 'Ship Date', 'Units Sold', 'Unit Price',
       'Unit Cost', 'Total Revenue', 'Total Cost', 'Total Profit'],
      dtype='object')

In [11]:
# Missing Values
sales_data.isnull().sum()

Region            0
Country           0
Item Type         0
Sales Channel     0
Order Priority    0
Order Date        0
Order ID          0
Ship Date         0
Units Sold        0
Unit Price        0
Unit Cost         0
Total Revenue     0
Total Cost        0
Total Profit      0
dtype: int64

No missing values

In [13]:
# Check for duplicate rows
sales_data.duplicated().sum()

0

In [15]:
# Convert Order Date and Ship Date columns to datetime format
sales_data["Order Date"] = pd.to_datetime(sales_data["Order Date"])
sales_data["Ship Date"] = pd.to_datetime(sales_data["Ship Date"])

In [20]:
# Check for any missing or incorrect values in numerical columns
sales_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Order ID,100.0,555020400.0,260615300.0,114606600.0,338922500.0,557708600.0,790755100.0,994022200.0
Units Sold,100.0,5128.71,2794.485,124.0,2836.25,5382.5,7369.0,9925.0
Unit Price,100.0,276.7613,235.5922,9.33,81.73,179.88,437.2,668.27
Unit Cost,100.0,191.048,188.2082,6.92,35.84,107.275,263.33,524.96
Total Revenue,100.0,1373488.0,1460029.0,4870.26,268721.2,752314.4,2212045.0,5997055.0
Total Cost,100.0,931805.7,1083938.0,3612.24,168868.0,363566.4,1613870.0,4509794.0
Total Profit,100.0,441682.0,438537.9,1258.02,121443.6,290768.0,635828.8,1719922.0


- Order ID : Les identifiants de commande sont répartis sur une large plage avec une moyenne d'environ 555 millions.

- Units Sold : Le nombre moyen d'unités vendues par commande est de 5128, avec un écart-type de 2794, ce qui indique une variabilité significative.

- Unit Price : Le prix moyen par unité est de 276.76, avec des prix allant de 9.33 à 668.27.

- Unit Cost : Le coût moyen par unité est de 191.05, avec des coûts allant de 6.92 à 524.96.

- Total Revenue : Les revenus totaux par commande varient considérablement, avec une moyenne de 1.37 million.

- Total Cost : Le coût total par commande a une moyenne de 931805.

- Total Profit : Le profit total moyen par commande est de 441682.

In [21]:
# Convert Unit Price, Unit Cost, Total Revenue, Total Cost, and Total Profit columns to float format
sales_data[["Unit Price", "Unit Cost", "Total Revenue", "Total Cost", "Total Profit"]] = sales_data[["Unit Price", "Unit Cost", "Total Revenue", "Total Cost", "Total Profit"]].astype(float)

In [23]:
sales_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 14 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   Region          100 non-null    object        
 1   Country         100 non-null    object        
 2   Item Type       100 non-null    object        
 3   Sales Channel   100 non-null    object        
 4   Order Priority  100 non-null    object        
 5   Order Date      100 non-null    datetime64[ns]
 6   Order ID        100 non-null    int64         
 7   Ship Date       100 non-null    datetime64[ns]
 8   Units Sold      100 non-null    int64         
 9   Unit Price      100 non-null    float64       
 10  Unit Cost       100 non-null    float64       
 11  Total Revenue   100 non-null    float64       
 12  Total Cost      100 non-null    float64       
 13  Total Profit    100 non-null    float64       
dtypes: datetime64[ns](2), float64(5), int64(2), object(5)
memor

In [26]:
# Remove any leading or trailing spaces in categorical columns
sales_data["Region"] = sales_data["Region"].str.strip()
sales_data["Country"] = sales_data["Country"].str.strip()
sales_data["Item Type"] = sales_data["Item Type"].str.strip()
sales_data["Sales Channel"] = sales_data["Sales Channel"].str.strip()
sales_data["Order Priority"] = sales_data["Order Priority"].str.strip()

In [27]:
sales_data.head()

Unnamed: 0,Region,Country,Item Type,Sales Channel,Order Priority,Order Date,Order ID,Ship Date,Units Sold,Unit Price,Unit Cost,Total Revenue,Total Cost,Total Profit
0,Australia and Oceania,Tuvalu,Baby Food,Offline,H,2010-05-28,669165933,2010-06-27,9925,255.28,159.42,2533654.0,1582243.5,951410.5
1,Central America and the Caribbean,Grenada,Cereal,Online,C,2012-08-22,963881480,2012-09-15,2804,205.7,117.11,576782.8,328376.44,248406.36
2,Europe,Russia,Office Supplies,Offline,L,2014-05-02,341417157,2014-05-08,1779,651.21,524.96,1158502.59,933903.84,224598.75
3,Sub-Saharan Africa,Sao Tome and Principe,Fruits,Online,C,2014-06-20,514321792,2014-07-05,8102,9.33,6.92,75591.66,56065.84,19525.82
4,Sub-Saharan Africa,Rwanda,Office Supplies,Offline,L,2013-02-01,115456712,2013-02-06,5062,651.21,524.96,3296425.02,2657347.52,639077.5


In [28]:
# Check for any missing or incorrect values in categorical columns
sales_data.describe(include="object").T

Unnamed: 0,count,unique,top,freq
Region,100,7,Sub-Saharan Africa,36
Country,100,76,The Gambia,4
Item Type,100,12,Clothes,13
Sales Channel,100,2,Offline,50
Order Priority,100,4,H,30


### Analyse par région et pays
Calculons le total des ventes, des coûts et des profits par région et par pays :

In [44]:
# Calcul des totaux par région
region_summary = sales_data.groupby('Region').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

region_summary

Unnamed: 0,Region,Total Revenue,Total Cost,Total Profit
0,Asia,21347091.02,15233245.15,6113845.87
1,Australia and Oceania,14094265.13,9372105.1,4722160.03
2,Central America and the Caribbean,9170385.49,6323477.64,2846907.85
3,Europe,33368932.11,22285993.48,11082938.63
4,Middle East and North Africa,14052706.58,8291514.72,5761191.86
5,North America,5643356.55,4185413.79,1457942.76
6,Sub-Saharan Africa,39672031.43,27488820.03,12183211.4


In [45]:
fig_region = px.bar(region_summary, x='Region', y='Total Revenue', title='Total Revenue par Région')
fig_region.show()

In [43]:
# Calcul des totaux par pays
country_summary = sales_data.groupby('Country').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

country_summary


Unnamed: 0,Country,Total Revenue,Total Cost,Total Profit
0,Albania,247956.32,81320.96,166635.36
1,Angola,2798046.49,2104134.98,693911.51
2,Australia,2489933.49,1913328.37,576605.12
3,Austria,1244708.40,749700.51,495007.89
4,Azerbaijan,4478800.21,2965873.38,1512926.83
...,...,...,...,...
71,The Gambia,5449517.95,4063634.68,1385883.27
72,Turkmenistan,5822036.20,4554777.80,1267258.40
73,Tuvalu,2533654.00,1582243.50,951410.50
74,United Kingdom,188452.14,141716.28,46735.86


In [48]:
# Calcul des totaux par pays
country_summary = sales_data.groupby('Country').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

# Créer une carte choroplèthe
fig_country_map = px.choropleth(
    country_summary,
    locations="Country",
    locationmode="country names",
    color="Total Revenue",
    hover_name="Country",
    color_continuous_scale="Viridis",
    title="Total Revenue par Pays"
)

# Afficher la carte
fig_country_map.show()


### Analyse par type d'article
Calculons les ventes totales, les coûts et les profits pour chaque type d'article :

In [34]:
item_summary = sales_data.groupby('Item Type').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

item_summary

Unnamed: 0,Item Type,Total Revenue,Total Cost,Total Profit
0,Baby Food,10350327.6,6463683.9,3886643.7
1,Beverages,2690794.6,1802747.32,888047.28
2,Cereal,5322898.9,3030455.47,2292443.43
3,Clothes,7787292.8,2553958.4,5233334.4
4,Cosmetics,36601509.6,22045460.94,14556048.66
5,Fruits,466481.34,345986.16,120495.18
6,Household,29889712.29,22477106.58,7412605.71
7,Meat,4503675.75,3893065.75,610610.0
8,Office Supplies,30585380.07,24655796.32,5929583.75
9,Personal Care,3980904.84,2760282.36,1220622.48


In [49]:
fig_item = px.bar(item_summary, x='Item Type', y='Total Revenue', title='Total Revenue par Type d\'Article')
fig_item.show()

### Analyse des canaux de vente
Comparons les performances des ventes en ligne vs. hors ligne :

In [35]:
sales_channel_summary = sales_data.groupby('Sales Channel').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

sales_channel_summary

Unnamed: 0,Sales Channel,Total Revenue,Total Cost,Total Profit
0,Offline,79094809.2,54174082.53,24920726.67
1,Online,58253959.11,39006487.38,19247471.73


In [50]:
fig_sales_channel = px.bar(sales_channel_summary, x='Sales Channel', y='Total Revenue', title='Total Revenue par Canal de Vente')
fig_sales_channel.show()

### Analyse des priorités de commande
Explorons les performances des commandes selon leur priorité :

In [36]:
priority_summary = sales_data.groupby('Order Priority').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

priority_summary

Unnamed: 0,Order Priority,Total Revenue,Total Cost,Total Profit
0,C,18855063.05,12106734.59,6748328.46
1,H,48749546.05,31857946.47,16891599.58
2,L,36628127.46,25769399.6,10858727.86
3,M,33116031.75,23446489.25,9669542.5


In [51]:
fig_priority = px.bar(priority_summary, x='Order Priority', y='Total Revenue', title='Total Revenue par Priorité de Commande')
fig_priority.show()

In [41]:
# Calcul des ventes par année et mois
sales_data['YearMonth'] = sales_data['Order Date'].dt.to_period('M')
temporal_summary = sales_data.groupby('YearMonth').agg({
    'Total Revenue': 'sum',
    'Total Cost': 'sum',
    'Total Profit': 'sum'
}).reset_index()

temporal_summary.tail()

Unnamed: 0,YearMonth,Total Revenue,Total Cost,Total Profit
55,2016-12,4493999.48,2832609.19,1661390.29
56,2017-01,2914130.27,2034623.15,879507.12
57,2017-02,7115008.64,5223736.84,1891271.8
58,2017-03,246415.95,170860.05,75555.9
59,2017-05,3097864.77,1854846.14,1243018.63


In [54]:
temporal_summary['YearMonth'] = temporal_summary['YearMonth'].astype(str)

fig_temporal = px.line(temporal_summary, x='YearMonth', y='Total Revenue', title='Tendances des Revenus au Fil du Temps')

# Ajuster la taille du plot
fig_temporal.update_layout(
    width=1000,  # Largeur du plot en pixels
    height=600,  # Hauteur du plot en pixels
)
fig_temporal.show()

### Analyse des Marges et des Coûts
Calculer la Marge de Profit : Analysez la variation de la marge de profit au fil du temps ou par région/pays/type d'article pour identifier les secteurs les plus rentables.

In [55]:
temporal_summary['Profit Margin'] = temporal_summary['Total Profit'] / temporal_summary['Total Revenue']
fig_margin = px.line(temporal_summary, x='YearMonth', y='Profit Margin', title='Évolution de la Marge de Profit')
fig_margin.show()

### Comparer les Coûts et les Revenus : 
Visualisez la relation entre les coûts totaux et les revenus totaux pour évaluer l'efficacité opérationnelle.

In [56]:
fig_costs_revenue = px.line(temporal_summary, x='YearMonth', y=['Total Revenue', 'Total Cost'], title='Évolution des Revenus et des Coûts')
fig_costs_revenue.show()

### Top Produits par Revenus : 
Identifiez les produits qui contribuent le plus aux revenus totaux et comparez leur performance.

In [57]:
top_products = sales_data.groupby('Item Type')['Total Revenue'].sum().nlargest(10).reset_index()
fig_top_products = px.bar(top_products, x='Item Type', y='Total Revenue', title='Top Produits par Revenus')
fig_top_products.show()

### Analyse de la Rentabilité par Produit : 
Comparez la rentabilité des différents types d'articles pour optimiser l'assortiment.

In [58]:
profitability_by_product = sales_data.groupby('Item Type')['Total Profit'].sum().reset_index()
fig_profitability = px.bar(profitability_by_product, x='Item Type', y='Total Profit', title='Rentabilité par Produit')
fig_profitability.show()

In [106]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, r2_score
import plotly.graph_objects as go


# Sélectionner les variables pertinentes pour la prédiction
X = sales_data[['Unit Price', 'Units Sold', 'Total Revenue']]
y = sales_data['Total Profit']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Créer un modèle de régression Ridge
ridge_model = Ridge(alpha=1.0)  # Vous pouvez ajuster alpha selon la force de régularisation

# Entraîner le modèle
ridge_model.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
y_pred = ridge_model.predict(X_test)

# Évaluer les performances du modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# Ajuster une régression linéaire aux données réelles
coefficients = np.polyfit(X_test['Total Revenue'], y_test, 1)
line = np.polyval(coefficients, X_test['Total Revenue'])

# Création du graphique interactif avec Plotly
fig = go.Figure()

# Ajouter les points de données réels
fig.add_trace(go.Scatter(x=X_test['Total Revenue'], y=y_test, mode='markers', name='Données réelles', marker=dict(color='blue')))

# Ajouter les prédictions
fig.add_trace(go.Scatter(x=X_test['Total Revenue'], y=y_pred, mode='markers', name='Prédictions', marker=dict(color='red')))

# Ajouter la ligne de régression ajustée
fig.add_trace(go.Scatter(x=X_test['Total Revenue'], y=line, mode='lines', name='Régression Linéaire', line=dict(color='green')))

# Mettre en forme le graphique
fig.update_layout(
    title='Prévision du Profit en Fonction du Revenue (Régression Ridge)',
    xaxis_title='Total Revenue',
    yaxis_title='Total Profit',
    showlegend=True,
    hovermode='closest',
    width=800,
    height=600
)

# Afficher le graphique interactif
fig.show()

In [103]:
# Créer un DataFrame pour afficher les métriques avec 'Metric' comme index
metrics_df = pd.DataFrame({
    'Value': [mse, r2]
}, index=['Mean Squared Error (MSE)', 'R-squared (R2)'])

# Afficher le tableau des métriques avec 'Metric' comme index
print("Tableau des Métriques d'Évaluation du Modèle :")
metrics_df

Tableau des Métriques d'Évaluation du Modèle :


Unnamed: 0,Value
Mean Squared Error (MSE),29218670000.0
R-squared (R2),0.8992387


In [86]:
import pickle

# Supposons que vous ayez déjà entraîné votre modèle ridge_model
# Enregistrez le modèle dans un fichier
with open('ridge_model.pkl', 'wb') as file:
    pickle.dump(ridge_model, file)


In [87]:
# Charger le modèle depuis le fichier sauvegardé
with open('ridge_model.pkl', 'rb') as file:
    ridge_model = pickle.load(file)

In [91]:
import pandas as pd

def predict_profit(new_data, model):
    """
    Predict Total Profit for new data using the provided Ridge regression model.
    
    Parameters:
    - new_data (DataFrame): A DataFrame containing 'Unit Price', 'Units Sold', and 'Total Revenue'.
    - model: Trained Ridge regression model object.
    """
    # Faire des prédictions sur les nouvelles données avec le modèle chargé
    predictions = model.predict(new_data)
    
    # Afficher les prédictions avec des explications
    print("Prédictions de Total Profit pour les nouvelles données :")
    for i, pred in enumerate(predictions):
        observation_num = i + 1
        unit_price = new_data.loc[i, 'Unit Price']
        units_sold = new_data.loc[i, 'Units Sold']
        total_revenue = new_data.loc[i, 'Total Revenue']

        print(f"Observation {observation_num}:")
        print(f"   - Unit Price: {unit_price}")
        print(f"   - Units Sold: {units_sold}")
        print(f"   - Total Revenue: {total_revenue}")
        print(f"   - Predicted Total Profit: {pred}")
        print()


In [92]:
# Exemple de nouvelles données
new_data = pd.DataFrame({
    'Unit Price': [300, 250],        # Prix unitaire des produits pour chaque observation
    'Units Sold': [5000, 6000],      # Nombre d'unités vendues pour chaque observation
    'Total Revenue': [1500000, 1800000]  # Revenu total généré pour chaque observation
})

# Utilisation de la fonction pour prédire le profit total avec le modèle chargé
predict_profit(new_data, ridge_model)

Prédictions de Total Profit pour les nouvelles données :
Observation 1:
   - Unit Price: 300
   - Units Sold: 5000
   - Total Revenue: 1500000
   - Predicted Total Profit: 470048.5112960498

Observation 2:
   - Unit Price: 250
   - Units Sold: 6000
   - Total Revenue: 1800000
   - Predicted Total Profit: 589684.569216144

