
# Walmart Sales Analysis (EDA)

**Objective:** วิเคราะห์ข้อมูลยอดขายรายสัปดาห์ของ Walmart เพื่อหาแนวโน้มตามฤดูกาล (seasonality), ผลของช่วงเทศกาล (holiday impact), ร้านที่ทำผลงานดีที่สุด (top stores) และความสัมพันธ์กับตัวแปรภายนอก (เช่น Fuel Price, CPI, Unemployment)

> ใช้ Notebook นี้เป็นแม่แบบ (template) — แต่ละส่วนมี *Markdown* อธิบาย และ *Code* แยกเป็นสัดส่วน


## 1) Setup & Imports

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# (Optional) ถ้ามี seaborn แนะนำให้ใช้เพื่อกราฟสวยขึ้น
try:
    import seaborn as sns
    sns.set(style="whitegrid")
except Exception:
    sns = None
    pass

pd.set_option('display.float_format', lambda x: f'{x:,.2f}')



## 2) Load Dataset

- แก้ไขตัวแปร `DATA_PATH` ให้ชี้ไปที่ไฟล์ CSV ของคุณ
- จากนั้นรันเซลล์นี้เพื่อโหลดข้อมูลและดู 5 แถวแรก


In [None]:

# >>> เปลี่ยนพาธไฟล์ตามจริงของคุณ <<<
DATA_PATH = r"S:\BusinessAnalyticProject\Walmart_Sales.csv"

df = pd.read_csv(DATA_PATH)
df.head()



## 3) Initial Data Checks
ตรวจสอบโครงสร้างข้อมูลเบื้องต้น: ขนาดข้อมูล, ชนิดข้อมูล, สถิติสรุป, และ missing values


In [None]:

print("Shape:", df.shape)
display(df.info())
display(df.describe(include='all'))
print("\nMissing values per column:")
print(df.isnull().sum())



## 4) Data Preparation (Date → datetime, New Columns)

- แปลง `Date` จาก object เป็น `datetime`
- สร้างคอลัมน์ `Year` และ `Month`


In [None]:

# ถ้าข้อมูลวัน/เดือน/ปี เช่น 05-02-2010 ให้ใช้ dayfirst=True หรือระบุ format='%d-%m-%Y'
try:
    df['Date'] = pd.to_datetime(df['Date'], format='%d-%m-%Y')
except Exception:
    df['Date'] = pd.to_datetime(df['Date'], dayfirst=True, errors='coerce')

df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month

df[['Date', 'Year', 'Month']].head()



## 5) Duplicates Check
ตรวจสอบแถวข้อมูลซ้ำ และลบออกถ้าจำเป็น


In [None]:

dups = df.duplicated().sum()
print(f"Duplicate rows: {dups}")
# ถ้าต้องการลบข้อมูลซ้ำ ให้ uncomment บรรทัดด้านล่าง
# df = df.drop_duplicates().copy()



## 6) EDA — Trend ของยอดขายรวมตามเวลา


In [None]:

sales_trend = df.groupby('Date')['Weekly_Sales'].sum().reset_index()

plt.figure(figsize=(14,6))
plt.plot(sales_trend['Date'], sales_trend['Weekly_Sales'])
plt.title('Total Weekly Sales Over Time', fontsize=15)
plt.xlabel('Date'); plt.ylabel('Weekly Sales')
plt.tight_layout(); plt.show()



## 7) EDA — Holiday vs Non-Holiday Sales
(ต้องมีคอลัมน์ `Holiday_Flag` = 1 สำหรับสัปดาห์เทศกาล)


In [None]:

if 'Holiday_Flag' in df.columns:
    if sns:
        plt.figure(figsize=(8,6))
        sns.boxplot(data=df, x='Holiday_Flag', y='Weekly_Sales', showmeans=True,
                    meanline=True, meanprops={'color':'red','ls':'--','lw':2})
        plt.title('Holiday vs Non-Holiday Sales')
        plt.xticks([0,1], ['Non-Holiday','Holiday'])
        plt.tight_layout(); plt.show()
    else:
        # matplotlib-only fallback (simple boxplot)
        data_non = df.loc[df['Holiday_Flag']==0, 'Weekly_Sales'].values
        data_hol = df.loc[df['Holiday_Flag']==1, 'Weekly_Sales'].values
        plt.figure(figsize=(8,6))
        plt.boxplot([data_non, data_hol], labels=['Non-Holiday','Holiday'], showmeans=True)
        plt.title('Holiday vs Non-Holiday Sales')
        plt.ylabel('Weekly Sales')
        plt.tight_layout(); plt.show()
else:
    print("Column 'Holiday_Flag' not found in dataset.")



## 8) EDA — Top 10 Stores by Average Weekly Sales


In [None]:

top_stores = (df.groupby('Store')['Weekly_Sales']
                .mean()
                .sort_values(ascending=False)
                .head(10))

plt.figure(figsize=(10,5))
plt.bar(top_stores.index.astype(str), top_stores.values)
plt.title('Top 10 Stores by Average Weekly Sales')
plt.xlabel('Store'); plt.ylabel('Average Weekly Sales')
plt.tight_layout(); plt.show()



## 9) Seasonality — Average Weekly Sales by Month (All Years)


In [None]:

monthly_avg = df.groupby('Month')['Weekly_Sales'].mean().reset_index()

plt.figure(figsize=(10,5))
plt.bar(monthly_avg['Month'].astype(str), monthly_avg['Weekly_Sales'])
plt.title('Average Weekly Sales by Month (All Years)')
plt.xlabel('Month'); plt.ylabel('Average Weekly Sales')
plt.tight_layout(); plt.show()



## 10) Seasonality — Monthly Average Sales by Year


In [None]:

monthly_by_year = (df.groupby(['Year','Month'])['Weekly_Sales']
                     .mean().reset_index())

plt.figure(figsize=(12,6))
for yr, sub in monthly_by_year.groupby('Year'):
    plt.plot(sub['Month'], sub['Weekly_Sales'], marker='o', label=str(yr))
plt.title('Monthly Average Sales by Year')
plt.xlabel('Month'); plt.ylabel('Average Weekly Sales')
plt.legend(title='Year', bbox_to_anchor=(1.02, 1), loc='upper left')
plt.tight_layout(); plt.show()



## 11) Correlation Analysis
ตรวจสอบความสัมพันธ์ของยอดขายกับตัวแปรภายนอก เช่น `Temperature`, `Fuel_Price`, `CPI`, `Unemployment`


In [None]:

num_cols = ['Weekly_Sales','Temperature','Fuel_Price','CPI','Unemployment']
num_cols = [c for c in num_cols if c in df.columns]
corr = df[num_cols].corr(method='pearson')

plt.figure(figsize=(7,5))
if sns:
    sns.heatmap(corr, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
else:
    im = plt.imshow(corr, cmap='coolwarm', vmin=-1, vmax=1)
    plt.colorbar(im, fraction=0.046, pad=0.04)
    plt.xticks(range(len(num_cols)), num_cols, rotation=45, ha='right')
    plt.yticks(range(len(num_cols)), num_cols)
plt.title('Correlation Heatmap (Pearson)')
plt.tight_layout(); plt.show()



## 12) Insights & Recommendations (สรุป)
- **Seasonality:** …
- **Holiday impact:** …
- **Top stores:** …
- **External factors:** …

## 13) Next Steps
- ทำ Dashboard ด้วย Streamlit / Power BI
- เพิ่ม Forecasting (Prophet / ARIMA) ถ้าต้องการ
- จัดทำ README.md พร้อมภาพตัวอย่างกราฟ
