In [None]:
# -*- coding: utf-8 -*-
import pandas as pd
import numpy as np

# ==============================================================================
# ส่วนที่ 1: การโหลดและสำรวจข้อมูล (Data Loading and Inspection)
# ==============================================================================
print("--- ส่วนที่ 1: การโหลดและสำรวจข้อมูล ---")

# 1.1 โหลดข้อมูลจากไฟล์ vgsales.csv
# หมายเหตุ: ตรวจสอบให้แน่ใจว่าไฟล์ vgsales.csv อยู่ใน path เดียวกันกับโค้ดนี้
try:
    df = pd.read_csv('vgsales.csv')
    print("1.1 โหลดข้อมูลสำเร็จ")
except FileNotFoundError:
    print("หาไฟล์ vgsales.csv ไม่พบ! กรุณาวางไฟล์ไว้ในตำแหน่งที่ถูกต้อง")
    exit() # ออกจากโปรแกรมถ้าหาไฟล์ไม่เจอ

# 1.2 สำรวจข้อมูลเบื้องต้น
print("\n1.2.1 แสดงข้อมูล 5 แถวแรก (head):")
print(df.head())

print("\n1.2.2 ตรวจสอบมิติของ DataFrame (shape):")
print(f"DataFrame มี {df.shape[0]} แถว และ {df.shape[1]} คอลัมน์")

print("\n1.2.3 แสดงข้อมูลสรุปของ DataFrame (info):")
# .info() จะแสดงประเภทข้อมูลและจำนวนค่าที่ไม่ใช่ค่าว่าง (non-null)
df.info()

print("\n1.2.4 แสดงค่าสรุปเชิงสถิติ (describe):")
print(df.describe())

print("\n--- สิ้นสุดส่วนที่ 1 ---\n" + "="*50 + "\n")


# ==============================================================================
# ส่วนที่ 2: การเลือกและคัดกรองข้อมูล (Selection & Filtering)
# ==============================================================================
print("--- ส่วนที่ 2: การเลือกและคัดกรองข้อมูล ---")

# 2.1 การเลือกคอลัมน์
print("\n2.1 เลือกแสดงข้อมูลเฉพาะคอลัมน์ Name, Platform, Year, และ Global_Sales:")
selected_columns = df[['Name', 'Platform', 'Year', 'Global_Sales']]
print(selected_columns.head())

# 2.2 การคัดกรองตามเงื่อนไข
print("\n2.2.1 คัดกรองเกมที่ลงในแพลตฟอร์ม 'Wii':")
wii_games = df[df['Platform'] == 'Wii']
print(wii_games.head())

print("\n2.2.2 คัดกรองเกม Action ที่มียอดขายทั่วโลก > 10 ล้าน:")
action_games_high_sales = df[(df['Genre'] == 'Action') & (df['Global_Sales'] > 10)]
print(action_games_high_sales)

print("\n2.2.3 คัดกรองเกมจาก 'Nintendo' หรือ 'Sony Computer Entertainment':")
major_publishers = ['Nintendo', 'Sony Computer Entertainment']
nintendo_or_sony_games = df[df['Publisher'].isin(major_publishers)]
print(nintendo_or_sony_games.head())

# 2.3 การเลือกด้วย .loc
print("\n2.3 ใช้ .loc เพื่อเลือกแถว index 100-105 และคอลัมน์ที่ระบุ:")
loc_selection = df.loc[100:105, ['Name', 'Genre', 'Publisher']]
print(loc_selection)

print("\n--- สิ้นสุดส่วนที่ 2 ---\n" + "="*50 + "\n")


# ==============================================================================
# ส่วนที่ 3: การจัดการข้อมูลที่ขาดหาย (Handling Missing Values)
# ==============================================================================
print("--- ส่วนที่ 3: การจัดการข้อมูลที่ขาดหาย ---")

# 3.1 ตรวจสอบข้อมูลที่ขาดหาย
print("\n3.1 จำนวนข้อมูลที่ขาดหายในแต่ละคอลัมน์ (ก่อนจัดการ):")
print(df.isnull().sum())

# 3.2 จัดการข้อมูล 'Year'
print("\n3.2 ลบแถวที่คอลัมน์ 'Year' มีค่าว่าง:")
df.dropna(subset=['Year'], inplace=True)
# inplace=True คือการแก้ไข DataFrame เดิมโดยตรง

# 3.3 จัดการข้อมูล 'Publisher'
print("\n3.3 แทนที่ค่าว่างใน 'Publisher' ด้วย 'Unknown':")
df['Publisher'].fillna('Unknown', inplace=True)

# 3.4 ตรวจสอบผลลัพธ์
print("\n3.4 จำนวนข้อมูลที่ขาดหายในแต่ละคอลัมน์ (หลังจัดการ):")
print(df.isnull().sum())
print("จัดการข้อมูลที่ขาดหายเรียบร้อยแล้ว")

print("\n--- สิ้นสุดส่วนที่ 3 ---\n" + "="*50 + "\n")


# ==============================================================================
# ส่วนที่ 4: การจัดการข้อมูลอื่นๆ และการสร้างคอลัมน์ใหม่
# ==============================================================================
print("--- ส่วนที่ 4: การจัดการข้อมูลอื่นๆ และการสร้างคอลัมน์ใหม่ ---")

# 4.1 การเรียงลำดับข้อมูล
print("\n4.1 เรียงลำดับข้อมูลตาม Global_Sales (มากไปน้อย):")
df_sorted = df.sort_values(by='Global_Sales', ascending=False)
print(df_sorted.head())

# 4.2 การสร้างคอลัมน์ใหม่ (Feature Engineering)
print("\n4.2.1 สร้างคอลัมน์ 'Sales_Outside_JP':")
df['Sales_Outside_JP'] = df['NA_Sales'] + df['EU_Sales'] + df['Other_Sales']
print(df[['Name', 'NA_Sales', 'EU_Sales', 'Other_Sales', 'Sales_Outside_JP']].head())

print("\n4.2.2 สร้างคอลัมน์ 'Release_Decade':")
# First, convert 'Year' column to integer type as it was float
df['Year'] = df['Year'].astype(int)

# Define the function to find the decade
def find_decade(year):
    if 1980 <= year < 1990:
        return '1980s'
    elif 1990 <= year < 2000:
        return '1990s'
    elif 2000 <= year < 2010:
        return '2000s'
    else:
        return '2010s_and_later'

# Apply the function to the 'Year' column
df['Release_Decade'] = df['Year'].apply(find_decade)
print(df[['Name', 'Year', 'Release_Decade']].head())


print("\n--- สิ้นสุดส่วนที่ 4 ---\n" + "="*50 + "\n")


# ==============================================================================
# ส่วนที่ 5: การบันทึกข้อมูล (Writing Data)
# ==============================================================================
print("--- ส่วนที่ 5: การบันทึกข้อมูล ---")

# 5.1 บันทึก DataFrame ที่จัดการแล้วลงไฟล์ CSV
output_filename = 'vgsales_cleaned.csv'
df.to_csv(output_filename, index=False)
# index=False is important to avoid writing row indices into the file

print(f"\n5.1 บันทึกข้อมูลที่จัดการเรียบร้อยแล้วลงในไฟล์ '{output_filename}'")

print("\n--- สิ้นสุดการปฏิบัติการ ---")