<h1>Sujet de Projet : Analyse Prédictive des Ventes pour une entreprise du commerce électronique: <h5>AMAZON</h5></h1>


<h3>Contexte</h3>
Dans le monde du commerce électronique, la capacité à prédire les ventes futures est cruciale pour les entreprises comme Amazon. Une prédiction précise permet non seulement d'optimiser la gestion des stocks et des chaînes d'approvisionnement, mais aussi d'améliorer les campagnes marketing et de maximiser les revenus. Cependant, prévoir les ventes de manière fiable est un défi en raison des multiples facteurs qui influencent les comportements d'achat des consommateurs, tels que les tendances saisonnières, les promotions, les événements spécifiques, et les dynamiques économiques globales.

<h3>Objectif du Projet</h3>
Ce projet a pour but de développer un modèle de machine learning capable de prédire les ventes mensuelles de produits sur Amazon. En utilisant des données historiques des ventes, le modèle permettra à l'entreprise de prendre des décisions éclairées concernant les stocks, les promotions, et la stratégie marketing.

<h3>Description du Dataset</h3>
Le dataset utilisé dans ce projet provient des ventes d'Amazon, un géant du commerce électronique. Il contient des informations détaillées sur les produits vendus, incluant les catégories, les prix, les dates de vente, et les volumes de vente. Ces données seront explorées et analysées pour identifier les tendances et les facteurs clés qui influencent les ventes, avant d'être utilisées pour entraîner et tester différents modèles prédictifs.

<h3>Exploration et Préparation des Données :</h3> Une exploration approfondie des données sera menée pour comprendre leur structure et leur contenu. Cette étape inclura également le nettoyage des données et la création de nouvelles caractéristiques pertinentes (feature engineering).

1) Exploration des Données

In [312]:
import pandas as pd

file=pd.read_csv("amazon.csv")
df=pd.DataFrame(file)
df.head()


Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,₹399,"₹1,099",64%,4.2,24269,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,₹199,₹349,43%,4.0,43994,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,₹199,"₹1,899",90%,3.9,7928,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,₹329,₹699,53%,4.2,94363,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,₹154,₹399,61%,4.2,16905,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...


In [313]:
print(df.describe(include='all'))
pd.set_option('display.width', 5000)

        product_id                                       product_name                                           category discounted_price actual_price discount_percentage rating rating_count                                      about_product                                            user_id                                          user_name                                          review_id                                       review_title                                     review_content                                           img_link                                       product_link
count         1465                                               1465                                               1465             1465         1465                1465   1465         1463                                               1465                                               1465                                               1465                                               1465       

In [301]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   product_id           1465 non-null   object
 1   product_name         1465 non-null   object
 2   category             1465 non-null   object
 3   discounted_price     1465 non-null   object
 4   actual_price         1465 non-null   object
 5   discount_percentage  1465 non-null   object
 6   rating               1465 non-null   object
 7   rating_count         1463 non-null   object
 8   about_product        1465 non-null   object
 9   user_id              1465 non-null   object
 10  user_name            1465 non-null   object
 11  review_id            1465 non-null   object
 12  review_title         1465 non-null   object
 13  review_content       1465 non-null   object
 14  img_link             1465 non-null   object
 15  product_link         1465 non-null   object
dtypes: obj

Lorsqu'on a afficher les données on a constaté il y a des données qui sont considéres tel que des object alors qu'ils sont de type numérique par exemple les prix et il y a des valeur null. Alors on va dans l'etape suivante les traiter afin d'avoir une dataset cohérente

2) Nettoyage des Données

In [303]:
print(df.isnull().sum())


product_id             0
product_name           0
category               0
discounted_price       0
actual_price           0
discount_percentage    0
rating                 0
rating_count           2
about_product          0
user_id                0
user_name              0
review_id              0
review_title           0
review_content         0
img_link               0
product_link           0
dtype: int64


In [304]:
df['actual_price'] = df['actual_price'].str.replace('₹', '').str.replace(',', '')
df['discounted_price'] = df['discounted_price'].str.replace('₹', '').str.replace(',', '')
df['rating_count'] = df['rating_count'].str.replace(',', '')
df['rating'] = df['rating'].str.replace('|', '')
df['discount_percentage'] = df['discount_percentage'].str.replace('%', '')
df.head()



Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,399,1099,64,4.2,24269,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,199,349,43,4.0,43994,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,199,1899,90,3.9,7928,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,329,699,53,4.2,94363,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,154,399,61,4.2,16905,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...


In [306]:
df['discounted_price'] =pd.to_numeric(df['discounted_price'])
df['actual_price'] =pd.to_numeric(df['actual_price'])
df['rating_count'] =pd.to_numeric(df['rating_count'])
df['rating'] =pd.to_numeric(df['rating'])
df['discount_percentage'] =pd.to_numeric(df['discount_percentage'])
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   product_id           1465 non-null   object 
 1   product_name         1465 non-null   object 
 2   category             1465 non-null   object 
 3   discounted_price     1465 non-null   float64
 4   actual_price         1465 non-null   float64
 5   discount_percentage  1465 non-null   int64  
 6   rating               1464 non-null   float64
 7   rating_count         1463 non-null   float64
 8   about_product        1465 non-null   object 
 9   user_id              1465 non-null   object 
 10  user_name            1465 non-null   object 
 11  review_id            1465 non-null   object 
 12  review_title         1465 non-null   object 
 13  review_content       1465 non-null   object 
 14  img_link             1465 non-null   object 
 15  product_link         1465 non-null   o

On a seulement 2 valeurs manquantes dans la colonne rating_count

In [307]:
print(df['rating_count'].skew())

5.673784182331723


Dans la colonne rating_count on a remarqué qu'il il ya une skewness positive alors on va remplacer les valeurs manquantes par la mediane vu qu'elle est souvent un bon indicateur central puisqu'elle n'est pas influencée par les valeurs extrêmes dans la queue à gauche

In [308]:
median_value = df['rating_count'].median()
df['rating_count'] = df['rating_count'].fillna(median_value)
print(df['rating_count'].skew())
print(df.isnull().sum())


5.677777608054587
product_id             0
product_name           0
category               0
discounted_price       0
actual_price           0
discount_percentage    0
rating                 1
rating_count           0
about_product          0
user_id                0
user_name              0
review_id              0
review_title           0
review_content         0
img_link               0
product_link           0
dtype: int64


Maintenant on va traiter  la valeur manquante de la colonne rating.
vu que on a seulement une seule valeur manquante qui  ne représente pas une proportion significativ et elle ne va pas affecter la représentativité de l'echantillon on va la supprimer :

In [309]:
df_clean = df.dropna(subset=['rating'])
df = df.dropna(subset=['rating'])
print(df.isnull().sum())
print(df['rating'].skew())

product_id             0
product_name           0
category               0
discounted_price       0
actual_price           0
discount_percentage    0
rating                 0
rating_count           0
about_product          0
user_id                0
user_name              0
review_id              0
review_title           0
review_content         0
img_link               0
product_link           0
dtype: int64
-1.2428954369559149


In [310]:
df = df.drop_duplicates()

Maintenant on une Dataset clean sans valeur null et sans duplicats prete a etre analysé

3) Analyse Exploratoire des Données (EDA)

Statistiques descriptives 

In [311]:
print(df.describe())

       discounted_price   actual_price  discount_percentage       rating   rating_count
count       1464.000000    1464.000000          1464.000000  1464.000000    1464.000000
mean        3126.011906    5447.002923            47.713115     4.096585   18289.441940
std         6946.625442   10878.270001            21.627422     0.291674   42739.607548
min           39.000000      39.000000             0.000000     2.000000       2.000000
25%          323.750000     800.000000            32.000000     4.000000    1192.500000
50%          799.000000    1650.000000            50.000000     4.100000    5179.000000
75%         1999.000000    4303.750000            63.000000     4.300000   17330.750000
max        77990.000000  139900.000000            94.000000     5.000000  426973.000000


Selon ces statistiques on constate que :
1) Discounted_price : 
- Mean : En moyenne, les produits sont vendus à un prix remisé d'environ 3126 ₹.
 - Std :  Il y a une grande variation dans les prix remisés, ce qui signifie que certains produits sont vendus à des prix beaucoup plus élevés que d'autres.
 - Min : Le prix le plus bas après remise est de 39₹
 - Max : Le prix le plus élevé après remise est de 77,990 ₹ ce qui montre la grande disparité des prix des produits.
 - 25% des produits ont un prix remisé inférieur à 323.75₹
  - 50% des produits ont un prix remisé inférieur à 799₹
 - 75% des produits ont un prix remisé inférieur à 1999₹
 - Cette information va nous servir à comprendre la gamme de prix des produits et à identifier les produits premium (ceux au-dessus du 75e percentile) ou les produits économiques (ceux en dessous du 25e percentile).

2) Actual_price : 

- Mean : En moyenne, le prix original des produits est d'environ 5447₹.
- Std : Comme pour les prix remisés, il y a une grande variation dans les prix d'origine.
- Min : Le prix original le plus bas est de 39₹.
- Max : Le prix original le plus élevé est de 139,900₹ indiquant des produits très haut de gamme.
- 25% des produits ont un prix original inférieur à 800₹.
- 50% des produits ont un prix original inférieur à 1650₹.
- 75% des produits ont un prix original inférieur à 4303.75₹.
- Ces informations nous permettent de comprendre la politique de prix avant réduction et de comparer l'écart entre le prix original et le prix remisé pour différentes gammes de produits.

3) Discount_percentage

- Mean : En moyenne, les produits sont réduits de 47.71%.
- Std : 21.63% La variation des pourcentages de réduction est assez large.
- Min: 0% Certains produits n'ont aucune réduction.
- Max : Le pourcentage de réduction maximum est de 94%, ce qui est très élevé.
- 25% des produits ont une réduction de 32% ou moins.
- 50% des produits ont une réduction de 50%.
- 75% des produits ont une réduction de 63% ou moins.
- Cette information peut nous aider pour analyser l'efficacité des réductions et identifier les produits avec les plus grandes réductions, qui pourraient être des moteurs de vente.

4) Rating

- Mean : En moyenne, les produits sont bien notés, avec une note autour de 4.1.
- Std : Les notes sont relativement cohérentes, avec peu de dispersion.
- Min : La note la plus basse est de 2.
- Max : La note la plus élevée est de 5, ce qui est la note maximale.
- 25% des produits ont une note inférieure à 4.
- 50% des produits ont une note de 4.1.
- 75% des produits ont une note de 4.3 ou moins.
- Ces statistiques montrent que la plupart des produits sont bien perçus par les utilisateurs. on peut identifier les produits mal notés pour une évaluation plus approfondie et potentiellement améliorer ces produits.

5) Rating_count

- Mean : En moyenne, les produits ont reçu environ 18,289 évaluations, ce qui est un nombre assez élevé.
- Std :  Il y a une très grande variation dans le nombre de notes, ce qui signifie que certains produits ont beaucoup plus de notes que d'autres.
- Min: Le nombre minimal de notes est de 2, ce qui peut indiquer un nouveau produit ou un produit peu populaire.
- Max : Le nombre maximal de notes est de 426,973, ce qui suggère un produit extrêmement populaire.
- 25% des produits ont reçu 1192.5 notes ou moins.
- 50% des produits ont reçu 5179 notes.
- 75% des produits ont reçu 17330.75 notes ou moins.
- Le nombre de notes peut être un indicateur de popularité. Les produits avec un grand nombre de notes sont probablement bien établis et populaires. Les efforts marketing pourraient se concentrer sur les produits avec moins de notes pour augmenter leur visibilité.

<h2>Conclusion</h2>

Ces analyses peuvent nous aider à orienter nos décisions stratégiques en matière de tarification, de marketing, et d'amélioration de produit.

Visualisations

On va utiliser divers types de diagrammes pour illustrer les caractéristiques et les relations entre les variables. Voici quelques  visualisations pertinentes avec des explications :

1) Histogrammes pour discounted_price, actual_price, rating, et rating_count : Les histogrammes permettent de visualiser la distribution des données pour chaque variable. Vous pouvez observer comment les prix, les notes, et le nombre de notes sont répartis.