# DATA CLEANING (การทำความสะอาดข้อมูล)

In [None]:
import pandas as pd
import numpy as np

In [None]:
# โหลดข้อมูล
df = pd.read_csv('/content/nike_sales_2024.csv')

In [None]:
#  ตรวจสอบข้อมูลเบื้องต้น
print(df.shape)

(1000, 10)


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Month                    1000 non-null   object 
 1   Region                   1000 non-null   object 
 2   Main_Category            1000 non-null   object 
 3   Sub_Category             1000 non-null   object 
 4   Product_Line             1000 non-null   object 
 5   Price_Tier               1000 non-null   object 
 6   Units_Sold               1000 non-null   int64  
 7   Revenue_USD              1000 non-null   object 
 8   Online_Sales_Percentage  1000 non-null   float64
 9   Retail_Price             1000 non-null   int64  
dtypes: float64(1), int64(2), object(7)
memory usage: 78.3+ KB
None


In [None]:
print(df.head())

      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold     Revenue_USD  Online_Sales_Percentage  \
0     Budget       48356  $14,506,800.00                     73.0   
1     Budget        9842   $2,066,820.00                     50.0   
2  Mid-Range       25079   $1,755,530.00                     90.0   
3    Premium       41404   $8,694,840.00                     58.0   
4    Premium       33569   $5,371,040.00                     53.0   

   Retail_Price  
0           300  
1           210  
2            70  
3           210  
4           160  


In [None]:
# แปลง Revenue_USD จาก string เป็น float
df['Revenue_USD'] = df['Revenue_USD'].replace('[\$,]', '', regex=True).astype(float)

In [None]:
# ตรวจสอบชนิดข้อมูลของคอลัมน์ Revenue_USD หลังแปลง
print(df['Revenue_USD'].dtype)

float64


In [None]:
# ตรวจหา missing values และแสดงเฉพาะคอลัมน์ที่มี missing
missing = df.isnull().sum()
print("Missing values:\n", missing[missing > 0])

Missing values:
 Series([], dtype: int64)


In [None]:
# แปลงชนิดข้อมูล (เดือน)
df['Order_Month'] = pd.to_datetime(df['Month'], format='%B', errors='coerce').dt.month

In [None]:
# แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Order_Month' ที่สร้างขึ้นใหม่
print(df[['Month', 'Order_Month']].head())

# หรือตรวจสอบชนิดข้อมูลของคอลัมน์ใหม่
print(df['Order_Month'].dtype)

      Month  Order_Month
0  November           11
1   January            1
2   October           10
3  December           12
4       May            5
int32


In [None]:
# แปลง Online_Sales_Percentage เป็น float (หากมี format ผิด)
df['Online_Sales_Percentage'] = df['Online_Sales_Percentage'].astype(float)

In [None]:
# ตรวจสอบชนิดข้อมูลของคอลัมน์ Online_Sales_Percentage หลังแปลง
print(df['Online_Sales_Percentage'].dtype)

float64


In [None]:
# แปลง Retail_Price ให้เป็น float ถ้ายังไม่ใช่
df['Retail_Price'] = df['Retail_Price'].astype(float)

In [None]:
# ตรวจสอบชนิดข้อมูลของคอลัมน์ Online_Sales_Percentage หลังแปลง
print(df['Retail_Price'].dtype)

float64


In [None]:
# ลบข้อมูลซ้ำ
before = df.shape[0]
df.drop_duplicates(inplace=True)
after = df.shape[0]
print(f"ลบข้อมูลซ้ำแล้ว {before - after} แถว")

ลบข้อมูลซ้ำแล้ว 0 แถว


In [None]:
# ตรวจหาค่าที่ไม่สมเหตุผล (ค่าติดลบ)
print("ค่าติดลบ:\n", df[df[['Units_Sold', 'Revenue_USD', 'Retail_Price']] < 0].dropna())

ค่าติดลบ:
 Empty DataFrame
Columns: [Month, Region, Main_Category, Sub_Category, Product_Line, Price_Tier, Units_Sold, Revenue_USD, Online_Sales_Percentage, Retail_Price, Order_Month]
Index: []


In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Month                    1000 non-null   object 
 1   Region                   1000 non-null   object 
 2   Main_Category            1000 non-null   object 
 3   Sub_Category             1000 non-null   object 
 4   Product_Line             1000 non-null   object 
 5   Price_Tier               1000 non-null   object 
 6   Units_Sold               1000 non-null   int64  
 7   Revenue_USD              1000 non-null   float64
 8   Online_Sales_Percentage  1000 non-null   float64
 9   Retail_Price             1000 non-null   float64
 10  Order_Month              1000 non-null   int32  
dtypes: float64(3), int32(1), int64(1), object(6)
memory usage: 82.2+ KB
None


#  FEATURE ENGINEERING (การสร้างคุณลักษณะใหม่)

In [None]:
# นิยาม Cost ใหม่ (ตามข้อมูล: Revenue_USD คือ "ต้นทุนรวม")
df['Cost'] = df['Revenue_USD']

In [None]:
# เช็ค: แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Revenue_USD' ที่สร้างขึ้นใหม่
print("แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Revenue_USD:")
print(df.head())

แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Revenue_USD:
      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold  Revenue_USD  Online_Sales_Percentage  Retail_Price  \
0     Budget       48356   14506800.0                     73.0         300.0   
1     Budget        9842    2066820.0                     50.0         210.0   
2  Mid-Range       25079    1755530.0                     90.0          70.0   
3    Premium       41404    8694840.0                     58.0         210.0   
4    Premium       33569    5371040.0                     53.0         160.0   

   Order_Month   

In [None]:
# คำนวณยอดขาย (Total Revenue หรือยอดขายรวม)
df['Total_Revenue'] = df['Retail_Price'] * df['Units_Sold']

In [None]:
# คำนวณกำไร (Profit)
df['Profit'] = df['Total_Revenue'] - df['Cost']

In [None]:
# เช็ค: แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Profit' ที่สร้างขึ้นใหม่
print("แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Profit:")
print(df.head())

แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Profit:
      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold  Revenue_USD  Online_Sales_Percentage  Retail_Price  \
0     Budget       48356   14506800.0                     73.0         300.0   
1     Budget        9842    2066820.0                     50.0         210.0   
2  Mid-Range       25079    1755530.0                     90.0          70.0   
3    Premium       41404    8694840.0                     58.0         210.0   
4    Premium       33569    5371040.0                     53.0         160.0   

   Order_Month        

In [None]:
# คำนวณอัตรากำไร (Profit Margin)
df['Profit_Margin'] = df['Profit'] / df['Total_Revenue']
df['Profit_Margin'] = df['Profit_Margin'].round(2)

In [None]:
# เช็ค: แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Profit Margin' ที่สร้างขึ้นใหม่
print("แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Profit Margin:")
print(df.head())

แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Profit Margin:
      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold  Revenue_USD  Online_Sales_Percentage  Retail_Price  \
0     Budget       48356   14506800.0                     73.0         300.0   
1     Budget        9842    2066820.0                     50.0         210.0   
2  Mid-Range       25079    1755530.0                     90.0          70.0   
3    Premium       41404    8694840.0                     58.0         210.0   
4    Premium       33569    5371040.0                     53.0         160.0   

   Order_Month 

In [None]:
# ฤดูกาล (Season)
month_to_season = {
    12: 'Winter', 1: 'Winter', 2: 'Winter',
    3: 'Spring', 4: 'Spring', 5: 'Spring',
    6: 'Summer', 7: 'Summer', 8: 'Summer',
    9: 'Fall', 10: 'Fall', 11: 'Fall'
}
df['Season'] = df['Order_Month'].map(month_to_season)

In [None]:
# เช็ค: แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Season' ที่สร้างขึ้นใหม่
print("แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Season:")
print(df.head())

แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Season:
      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold  Revenue_USD  Online_Sales_Percentage  Retail_Price  \
0     Budget       48356   14506800.0                     73.0         300.0   
1     Budget        9842    2066820.0                     50.0         210.0   
2  Mid-Range       25079    1755530.0                     90.0          70.0   
3    Premium       41404    8694840.0                     58.0         210.0   
4    Premium       33569    5371040.0                     53.0         160.0   

   Order_Month        

In [None]:
# ตรวจสอบค่าที่ไม่ซ้ำกันในคอลัมน์ Season
print("\nค่าที่ไม่ซ้ำกันในคอลัมน์ Season:")
print(df['Season'].unique())


ค่าที่ไม่ซ้ำกันในคอลัมน์ Season:
['Fall' 'Winter' 'Spring' 'Summer']


In [None]:
# นับจำนวนข้อมูลในแต่ละฤดูกาล
print("\nจำนวนข้อมูลในแต่ละฤดูกาล:")
print(df['Season'].value_counts())


จำนวนข้อมูลในแต่ละฤดูกาล:
Season
Winter    270
Summer    256
Fall      248
Spring    226
Name: count, dtype: int64


In [None]:
# ราคาต่อชิ้นขาย (Unit Sale Price)
df['Unit_Sale_Price'] = df['Total_Revenue'] / df['Units_Sold']
df['Unit_Sale_Price'] = df['Unit_Sale_Price'].round(2)

In [None]:
# เช็ค: แสดงข้อมูล 5 แถวแรกเพื่อดูคอลัมน์ 'Unit Sale Price' ที่สร้างขึ้นใหม่
print("แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Unit Sale Price:")
print(df.head())

แสดงข้อมูล 5 แถวแรกพร้อมคอลัมน์ Unit Sale Price:
      Month         Region Main_Category Sub_Category       Product_Line  \
0  November          India     Equipment         Bags           Gym Sack   
1   January          India     Equipment  Accessories               Hats   
2   October          India       Apparel         Tops        Tech Fleece   
3  December  Greater China      Footwear      Cricket      Vapor Cricket   
4       May  Greater China     Equipment        Socks  Performance Socks   

  Price_Tier  Units_Sold  Revenue_USD  Online_Sales_Percentage  Retail_Price  \
0     Budget       48356   14506800.0                     73.0         300.0   
1     Budget        9842    2066820.0                     50.0         210.0   
2  Mid-Range       25079    1755530.0                     90.0          70.0   
3    Premium       41404    8694840.0                     58.0         210.0   
4    Premium       33569    5371040.0                     53.0         160.0   

   Order_Mont

In [None]:
# เซฟ DataFrame เป็นไฟล์ CSV
df.to_csv('nike_sales_processed.csv', index=False)

print("บันทึกไฟล์ nike_sales_processed.csv เรียบร้อยแล้ว")

บันทึกไฟล์ nike_sales_processed.csv เรียบร้อยแล้ว


In [None]:
!pip install openpyxl



In [None]:
# เซฟ DataFrame เป็นไฟล์ Excel
df.to_excel('nike_sales_processed.xlsx', index=False)

print("บันทึกไฟล์ nike_sales_processed.xlsx เรียบร้อยแล้ว")

บันทึกไฟล์ nike_sales_processed.xlsx เรียบร้อยแล้ว


### 📌 การนิยามใหม่ของฟีเจอร์

- `Revenue_USD` = ต้นทุนรวมต่อรายการ (จากแหล่งข้อมูล)
- `Total_Revenue` = รายได้รวม (Retail_Price * Units_Sold)
- `Profit` = กำไร = Total_Revenue - Cost
- `Profit_Margin` = อัตรากำไร = Profit / Total_Revenue
- `Unit_Sale_Price` = ราคาขายเฉลี่ยต่อหน่วย

### 🎯 ฟีเจอร์ที่สร้างใหม่
- **Cost** → คัดลอกมาจาก `Revenue_USD`
- **Total_Revenue** → รายได้รวม
- **Profit** → ยอดขาย - ต้นทุน
- **Profit_Margin** → กำไรสุทธิ (แบบสัมพัทธ์)
- **Season** → ฤดูกาลตามเดือน (Spring, Summer, Fall, Winter)
- **Unit_Sale_Price** → รายได้เฉลี่ยต่อ 1 หน่วยสินค้า