# **Analyse des tendances de prix des ordinateurs portables sur eBay**

### **Introduction**


Notre projet vise à étudier les tendances de consommation des utilisateurs de plateformes de e-commerce, en se concentrant sur les ordinateurs portables sur eBay. Les questions centrales de cette étude sont les suivantes :
- Quels sont les facteurs qui influencent la demande d’un produit et, par conséquent, son prix ?
- Comment estimer le prix d’un ordinateur en fonction de ses caractéristiques ?

Pour y répondre, nous avons distingué deux types de critères :

**Critères objectifs :** RAM, stockage, densité de pixels, condition de l’article.

**Critères subjectifs :** marque, couleur, taille de l’écran.

Afin d’analyser ces influences, nous avons choisi de modéliser la relation entre les caractéristiques des produits et leur prix à l’aide d’une régression linéaire. Cette approche permet de quantifier l’impact de chaque critère sur le prix des ordinateurs portables.

L’objectif final de ce projet est de réaliser une analyse approfondie de la consommation d'ordinateurs portables sur eBay, tout en fournissant un modèle prédictif pour estimer leur prix à partir de leurs caractéristiques.

Nous avons trouvé le choix de la plateforme eBay pertinent dans la mesure où ce sont les utilisateurs qui fixent le prix qu'ils attribuent à leur ordinateur.

### **Installation**

In [1]:
%pip install -r requirements.txt

Note: you may need to restart the kernel to use updated packages.


In [2]:
import pandas as pd

### **Chargement des données dans le projet**

En raison du temps de réponse élevé de l’API et du nombre d'appels à l'API limité à 4500 par jour, nous avons préféré exécuter les requêtes en amont et sauvegarder les données dans un fichier CSV. Cette démarche a pour objectif de faciliter l’analyse en évitant les délais d’attente liés à l’API et en permettant d'avoir plus de données. 

Le code permettant de collecter les données est disponible sur le GitHub du projet. Ce script **data.py** situé dans le fichier src peut être exécuté si de nouvelles données doivent être extraites.

Dans le notebook, nous nous contentons de charger le fichier CSV prégénéré pour effectuer les étapes d’analyse et de nettoyage.

Cette approche permet une expérience plus fluide et garantit la reproductibilité de l’étude sans dépendre des performances de l’API au moment de l’exécution.



### **Récupération des données**

Pour collecter les données nécessaires à notre étude, nous avons utilisé l’API Browse d’eBay. Ce choix s’explique par la richesse des informations disponibles sur cette plateforme et son large catalogue de produits. Cependant, cela a requis plusieurs étapes préparatoires :

1. **Choix d'un segment spécifique :** Pour limiter la variabilité des données, nous avons choisi de nous concentrer sur les ordinateurs portables. Ce segment présente de nombreuses spécificités (RAM, stockage, écran, etc.) qui permettent d’étudier l’impact de chaque critère sur le prix.

2. **Délimitation du marché :** Nous avons choisi de nous focaliser sur le marché français. Cette décision a pour but d’éviter les biais liés à des contextes géopolitiques différents entre les marchés ou à des devises différentes. 

3. **Extraction des données :**
Les informations classiques comme le prix et l’état des articles sont directement accessibles via l’API Browse pour chaque item.
Les caractéristiques plus précises (RAM, marque, stockage, taille de l’écran) sont stockées dans une sous-catégorie nommée localized aspects. Ces informations sont organisées sous forme de dictionnaire (clé/valeur).

4. **Gestion des données manquantes :**
Comme les utilisateurs remplissent eux-mêmes les informations, certaines données sont parfois absentes. 
Plusieurs approches ont été envisagées :
- Exclure les articles avec des données manquantes, en raison du volume important de données disponibles.
- Conserver les articles incomplets pour ne pas réduire excessivement l’échantillon.

Afin de ne pas trop réduire l'échantillon ou de compromettre la fiabilité de l'étude nous avons choisi de conserver les articles ayant obligatoirement les informations suivantes : prix, capacité de stockage, RAM et marque. Toutefois, si des données telles que la taille de l'écran, la résolution ou encore la date de publication ne sont pas présentes il ne nous semblait pas pertinent d'enlever ces ordinateurs portables puisque cela ne compromet pas le résultat de notre étude et nous permet d'avoir un échantillon plus important.

In [3]:
ordi_csv = "data3.csv"
data = pd.read_csv(ordi_csv)
data.head()

Unnamed: 0,ID,Prix,Condition,RAM,Stockage,Marque,Couleur,Taille écran,Résolution,Date de publication
0,v1|176737201854|0,1680.0,Occasion,16 Go,0,ASUS,,"13,4""",,2024-12-15T17:33:06.000Z
1,v1|375863586836|0,550.0,Occasion,8 Go,256 Go,Apple,Gris,"13""",2560 x 1600,2024-12-13T08:42:48.000Z
2,v1|146269671817|0,120.0,Occasion,6 Go,700Go,ASUS,Rouge,"15,6""",,2024-12-15T11:51:11.000Z
3,v1|196898961056|0,89.9,Occasion,8 Go,480Go,HP,,"17,3""",,2024-12-17T16:37:02.000Z
4,v1|365291982473|0,1300.0,Occasion,16 Go,256 Go,Dell,Noir,"13""",1920 x 1080,2024-12-17T16:57:08.000Z


### **Nettoyage des données**