# üì¶ Data Notebook ‚Äî Newegg Price Tracker (Cat√©gorie enti√®re)

Ce notebook regroupe **tout ce qui concerne la partie data** du projet :
- description du dataset (`prices_history.csv`)
- sch√©ma des colonnes (data dictionary)
- gestion des valeurs manquantes
- nettoyage et pr√©paration
- analyses simples (EDA)
- indicateurs journaliers + moyenne mobile
- exports recommand√©s

> **Fichier attendu** : `prices_history.csv` dans le m√™me dossier que ce notebook.


In [1]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

CSV_PATH = "prices_history.csv"

if not os.path.exists(CSV_PATH):
    raise FileNotFoundError(f"‚ö†Ô∏è Fichier introuvable: {CSV_PATH}. Place-le √† c√¥t√© du notebook.")

df_raw = pd.read_csv(CSV_PATH, encoding="utf-8-sig")
df_raw.head(5)


FileNotFoundError: ‚ö†Ô∏è Fichier introuvable: prices_history.csv. Place-le √† c√¥t√© du notebook.

## 1) Data dictionary (sch√©ma des colonnes)

Le dataset provient du scraping Newegg. Chaque ligne repr√©sente **un produit observ√© √† une date/heure de collecte**.

| Colonne | Type attendu | Description |
|---|---|---|
| `category` | texte | Cat√©gorie suivie (ex: GPU, SSD‚Ä¶) |
| `scrape_datetime_utc` | datetime ISO | Date/heure de collecte en UTC |
| `page` | int | Num√©ro de page (pagination) |
| `rank` | int | Rang du produit dans la liste (utile pour analyser le ‚ÄúTop‚Äù) |
| `product_name` | texte | Nom du produit |
| `product_url` | texte (URL) | Identifiant stable du produit (cl√© principale) |
| `brand` | texte | Marque (si d√©tect√©e) |
| `price_value` | float | Prix num√©rique (utile pour analyses) |
| `rating_avg` | float | Note moyenne (si disponible) |
| `rating_count` | int | Nombre d‚Äôavis (si disponible) |
| `availability` | texte | Stock (In stock / Out of stock / Unknown) |


In [None]:
# 2) Aper√ßu global : dimensions, types, exemples
print("Shape:", df_raw.shape)
display(df_raw.sample(min(5, len(df_raw)), random_state=42))

print("\nTypes:")
display(df_raw.dtypes)

print("\nInfo:")
df_raw.info()


In [None]:
# 3) Valeurs manquantes
missing = df_raw.isna().sum().sort_values(ascending=False)
missing_pct = (missing / len(df_raw) * 100).round(2)

miss_table = pd.DataFrame({"missing_count": missing, "missing_pct": missing_pct})
display(miss_table)


## 4) Nettoyage & pr√©paration

Objectif : rendre les donn√©es **analysables**.

√âtapes :
1. Convertir `scrape_datetime_utc` ‚Üí datetime UTC  
2. Extraire `scrape_date` (jour) pour analyses journali√®res  
3. Convertir `price_value` ‚Üí num√©rique  
4. Nettoyer les champs texte (`strip`)  
5. Filtrer les lignes inutilisables (pas d‚ÄôURL, pas de date, pas de prix valide)  
6. D√©doublonner strictement sur (`product_url`, `scrape_datetime_utc`)  


In [None]:
df = df_raw.copy()

# Champs texte
for col in ["category", "product_name", "product_url", "brand", "availability"]:
    if col in df.columns:
        df[col] = df[col].astype("string").fillna("").str.strip()

# Date/heure
df["scrape_datetime_utc"] = pd.to_datetime(df["scrape_datetime_utc"], errors="coerce", utc=True)
df["scrape_date"] = df["scrape_datetime_utc"].dt.date

# Num√©riques
df["price_value"] = pd.to_numeric(df["price_value"], errors="coerce")
if "rating_avg" in df.columns:
    df["rating_avg"] = pd.to_numeric(df["rating_avg"], errors="coerce")
if "rating_count" in df.columns:
    df["rating_count"] = pd.to_numeric(df["rating_count"], errors="coerce")

# Filtres qualit√©
df = df.dropna(subset=["scrape_datetime_utc", "scrape_date"])
df = df[df["product_url"].str.len() > 0]
df = df[df["price_value"].notna() & (df["price_value"] > 0)]

# D√©doublonnage exact (tracker)
df = df.sort_values(["product_url", "scrape_datetime_utc"])
df = df.drop_duplicates(subset=["product_url", "scrape_datetime_utc"], keep="last")

print("‚úÖ Apr√®s nettoyage:", df.shape)
df.head(5)


In [None]:
# 5) Cat√©gories disponibles + p√©riode couverte
print("Cat√©gories:", df["category"].unique().tolist())

date_min = df["scrape_datetime_utc"].min()
date_max = df["scrape_datetime_utc"].max()
print("P√©riode:", date_min, "->", date_max)

# Nombre de produits distincts par cat√©gorie
display(df.groupby("category")["product_url"].nunique().sort_values(ascending=False))


## 6) EDA (analyses simples)

Analyses propos√©es :
- distribution des prix
- top 10 produits les moins chers / les plus chers
- prix moyen par marque
- disponibilit√© (stock)
- d√©tection simple d‚Äôoutliers (IQR)


In [None]:
CATEGORY = df["category"].iloc[0] if len(df) else None  # par d√©faut, 1√®re cat√©gorie trouv√©e
print("Cat√©gorie par d√©faut:", CATEGORY)

d = df[df["category"] == CATEGORY].copy()
print("Lignes cat√©gorie:", len(d))

# R√©sum√© prix
summary = d["price_value"].describe(percentiles=[.25, .5, .75]).to_frame("price_value")
display(summary)

# Top 10 moins chers / plus chers
display(d.sort_values("price_value").head(10)[["product_name","brand","price_value","availability"]])
display(d.sort_values("price_value", ascending=False).head(10)[["product_name","brand","price_value","availability"]])


In [None]:
# Prix moyen par marque (top 15 marques avec le plus de produits)
brand_counts = d["brand"].replace("", "Unknown").value_counts()
top_brands = brand_counts.head(15).index.tolist()

brand_avg = (
    d.assign(brand=d["brand"].replace("", "Unknown"))
     .query("brand in @top_brands")
     .groupby("brand")
     .agg(avg_price=("price_value","mean"), n_products=("product_url","nunique"))
     .sort_values("avg_price")
)

display(brand_avg)

# Disponibilit√©
avail = d["availability"].replace("", "Unknown").value_counts()
display(avail)


In [None]:
# Graphiques simples (sans seaborn)

# 1) Histogramme des prix (distribution)
plt.figure()
d["price_value"].plot(kind="hist", bins=30)
plt.title(f"Distribution des prix ‚Äî {CATEGORY}")
plt.xlabel("Prix")
plt.ylabel("Nombre de produits")
plt.tight_layout()
plt.show()

# 2) Bar chart prix moyen par marque (top_brands)
plt.figure()
brand_avg["avg_price"].plot(kind="bar")
plt.title(f"Prix moyen par marque ‚Äî {CATEGORY} (Top 15 marques par volume)")
plt.xlabel("Marque")
plt.ylabel("Prix moyen")
plt.tight_layout()
plt.show()


In [None]:
# D√©tection simple des outliers (m√©thode IQR)
q1 = d["price_value"].quantile(0.25)
q3 = d["price_value"].quantile(0.75)
iqr = q3 - q1

lower = q1 - 1.5 * iqr
upper = q3 + 1.5 * iqr

outliers = d[(d["price_value"] < lower) | (d["price_value"] > upper)]
print("Outliers:", len(outliers), "sur", len(d), f"({len(outliers)/len(d)*100:.2f}%)")

display(outliers.sort_values("price_value", ascending=False).head(10)[["product_name","brand","price_value","product_url"]])


## 7) Statistiques journali√®res + moyenne mobile 7 jours

Quand tu auras plusieurs collectes (plusieurs jours), cette partie donnera :
- prix moyen/jour
- m√©diane/jour
- nombre de produits distincts/jour
- moyenne mobile 7 jours (tendance)


In [None]:
daily = (
    d.groupby("scrape_date")
     .agg(
        avg_price=("price_value","mean"),
        median_price=("price_value","median"),
        min_price=("price_value","min"),
        max_price=("price_value","max"),
        products_count=("product_url","nunique"),
        observations=("price_value","count"),
     )
     .reset_index()
     .sort_values("scrape_date")
)

daily["avg_price_ma7"] = daily["avg_price"].rolling(window=7, min_periods=1).mean()

display(daily)

# Plot
plt.figure()
x = pd.to_datetime(daily["scrape_date"])
plt.plot(x, daily["avg_price"], label="Prix moyen (jour)")
plt.plot(x, daily["avg_price_ma7"], label="Moyenne mobile 7 jours")
plt.title(f"Prix moyen ‚Äî {CATEGORY}")
plt.xlabel("Date")
plt.ylabel("Prix")
plt.legend()
plt.xticks(rotation=30)
plt.tight_layout()
plt.show()


## 8) Top baisses (produits) entre premi√®re et derni√®re observation

‚ö†Ô∏è Si tu n‚Äôas qu‚Äôune seule date de collecte, la table sera vide (normal).  
Quand tu auras plusieurs collectes, cette table permettra d‚Äôidentifier les produits ayant le plus baiss√©.


In [None]:
if d["scrape_date"].nunique() < 2:
    print("‚ÑπÔ∏è Une seule date de collecte => pas de comparaison possible pour les baisses.")
else:
    tmp = d.sort_values(["product_url","scrape_datetime_utc"])

    first = (
        tmp.groupby("product_url", as_index=False)
           .first()[["product_url","product_name","scrape_date","price_value"]]
           .rename(columns={"scrape_date":"date_first","price_value":"price_first"})
    )
    last = (
        tmp.groupby("product_url", as_index=False)
           .last()[["product_url","scrape_date","price_value"]]
           .rename(columns={"scrape_date":"date_last","price_value":"price_last"})
    )

    drops = first.merge(last, on="product_url", how="inner")
    drops["drop_abs"] = drops["price_first"] - drops["price_last"]
    drops["drop_pct"] = (drops["drop_abs"] / drops["price_first"]) * 100
    drops = drops[drops["drop_abs"] > 0].sort_values("drop_pct", ascending=False)

    display(drops.head(15))


## 9) Exports (optionnel)

Tu peux exporter :
- `clean_prices_history.csv` : donn√©es nettoy√©es
- `daily_stats.csv` : stats journali√®res de la cat√©gorie


In [None]:
# Export optionnel
df.to_csv("clean_prices_history.csv", index=False, encoding="utf-8-sig")
daily.to_csv(f"daily_stats_{CATEGORY.lower()}.csv", index=False, encoding="utf-8-sig")

print("‚úÖ Exports cr√©√©s: clean_prices_history.csv, daily_stats_<category>.csv")
