# ส่วนที่ 1: การดึงข้อมูล (Data Extraction)

Notebook นี้แสดงขั้นตอนการดึงข้อมูลจากแหล่งต่างๆ สำหรับการวิเคราะห์ข้อมูลการจ้างงาน

## 1. ติดตั้งแพ็คเกจที่จำเป็น

In [None]:
# ติดตั้งแพ็คเกจที่จำเป็น
!pip install pandas numpy matplotlib seaborn sqlalchemy

## 2. Import Libraries

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
from datetime import datetime

# ตั้งค่าการแสดงผลกราฟให้สวยงาม
plt.style.use('ggplot')
sns.set(style='whitegrid')

# ตั้งค่าให้แสดงข้อมูลภาษาไทยได้
plt.rcParams['font.family'] = 'DejaVu Sans'

# แสดงเวอร์ชันของแพ็คเกจ
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## 3. เชื่อมต่อกับ Google Drive

เชื่อมต่อ Google Drive เพื่อเข้าถึงไฟล์ข้อมูลและบันทึกผลลัพธ์

In [None]:
# กำหนดพาธหลักสำหรับโปรเจค
project_path = './Employee_Data_Analytics_Project'  # ปรับตามโครงสร้างของคุณ

# สร้างโฟลเดอร์โปรเจค (ถ้ายังไม่มี)
if not os.path.exists(project_path):
    os.makedirs(project_path)
    print(f"สร้างโฟลเดอร์ {project_path} สำเร็จ")
else:
    print(f"โฟลเดอร์ {project_path} มีอยู่แล้ว")

## 4. อัปโหลดไฟล์ข้อมูล

อัปโหลดไฟล์ข้อมูล dataset_employee.csv

In [None]:
# ตรวจสอบว่าไฟล์มีอยู่ในโปรเจคหรือไม่
file_path = f"{project_path}/dataset_employee.csv"

if os.path.exists(file_path):
    print(f"ไฟล์ {file_path} มีอยู่แล้ว")
else:
    print("กรุณาอัปโหลดไฟล์ dataset_employee.csv")
    
    # สำหรับ Jupyter Notebook local ให้ใช้ ipywidgets
    from ipywidgets import FileUpload
    upload = FileUpload(accept='.csv', multiple=False)
    display(upload)
    
    # คำสั่งสำหรับดำเนินการหลังจากอัปโหลดไฟล์
    # โค้ดนี้จะทำงานหลังจากผู้ใช้อัปโหลดไฟล์แล้ว
    # จะต้องรันเซลล์นี้อีกครั้งหลังจากอัปโหลดไฟล์

In [None]:
# บันทึกไฟล์ที่อัปโหลด (รันหลังจากอัปโหลดไฟล์)
# หากใช้ FileUpload widget จาก ipywidgets
if 'upload' in globals() and upload.value:
    # อ่านไฟล์ที่อัปโหลด
    for filename, data in upload.value.items():
        with open(f"{project_path}/dataset_employee.csv", 'wb') as f:
            f.write(data['content'])
    print(f"บันทึกไฟล์ไปยัง {file_path} สำเร็จ")

## 5. อ่านข้อมูลและตรวจสอบโครงสร้าง

In [None]:
# อ่านข้อมูลจากไฟล์ CSV
df = pd.read_csv(file_path)

# แสดงข้อมูล 5 แถวแรก
print("ตัวอย่างข้อมูล 5 แถวแรก:")
display(df.head())

# แสดงโครงสร้างข้อมูล
print("\nโครงสร้างข้อมูล:")
print(f"จำนวนแถว: {df.shape[0]}")
print(f"จำนวนคอลัมน์: {df.shape[1]}")

# แสดงประเภทข้อมูลของแต่ละคอลัมน์
print("\nประเภทข้อมูลของแต่ละคอลัมน์:")
display(df.dtypes)

# แสดงข้อมูลทางสถิติพื้นฐาน
print("\nข้อมูลทางสถิติพื้นฐาน:")
display(df.describe())

# ตรวจสอบข้อมูลที่หายไป
print("\nตรวจสอบข้อมูลที่หายไป:")
missing_data = df.isnull().sum()
missing_percentage = (missing_data / df.shape[0]) * 100
missing_info = pd.DataFrame({'จำนวนข้อมูลที่หายไป': missing_data, 'เปอร์เซ็นต์': missing_percentage})
display(missing_info)

## 6. สำรวจค่าที่เป็นไปได้ในแต่ละคอลัมน์

In [None]:
# ตรวจสอบค่าที่เป็นไปได้ในคอลัมน์ REGION
print("ค่าที่เป็นไปได้ในคอลัมน์ REGION:")
region_counts = df['REGION'].value_counts().reset_index()
region_counts.columns = ['REGION', 'COUNT']
display(region_counts)

# ตรวจสอบค่าที่เป็นไปได้ในคอลัมน์ QUARTER
print("\nค่าที่เป็นไปได้ในคอลัมน์ QUARTER:")
quarter_counts = df['QUARTER'].value_counts().reset_index()
quarter_counts.columns = ['QUARTER', 'COUNT']
display(quarter_counts)

# ตรวจสอบค่าที่เป็นไปได้ในคอลัมน์ SEX
print("\nค่าที่เป็นไปได้ในคอลัมน์ SEX:")
sex_counts = df['SEX'].value_counts().reset_index()
sex_counts.columns = ['SEX', 'COUNT']
display(sex_counts)

# ตรวจสอบช่วงของข้อมูล YEAR
print("\nช่วงของข้อมูล YEAR:")
year_range = df['YEAR'].unique()
print(f"ปีที่มีในข้อมูล: {sorted(year_range)}")

# ตรวจสอบจำนวนจังหวัดทั้งหมด
print(f"\nจำนวนจังหวัดทั้งหมดในข้อมูล: {df['PROVINCE'].nunique()} จังหวัด")

## 7. วิเคราะห์ข้อมูลเบื้องต้น

In [None]:
# สรุปข้อมูลตามภูมิภาค
region_summary = df.groupby('REGION')['VALUE'].agg(['sum', 'mean', 'min', 'max', 'count']).reset_index()
region_summary.columns = ['ภูมิภาค', 'จำนวนรวม', 'ค่าเฉลี่ย', 'ค่าต่ำสุด', 'ค่าสูงสุด', 'จำนวนข้อมูล']
region_summary = region_summary.sort_values('จำนวนรวม', ascending=False)

print("สรุปข้อมูลตามภูมิภาค:")
display(region_summary)

# สรุปข้อมูลตามเพศ
sex_summary = df.groupby('SEX')['VALUE'].agg(['sum', 'mean']).reset_index()
sex_summary.columns = ['เพศ', 'จำนวนรวม', 'ค่าเฉลี่ย']

print("\nสรุปข้อมูลตามเพศ:")
display(sex_summary)

# สรุปข้อมูลตามปีและไตรมาส
time_summary = df.groupby(['YEAR', 'QUARTER'])['VALUE'].sum().reset_index()
time_summary.columns = ['ปี', 'ไตรมาส', 'จำนวนรวม']
time_summary = time_summary.sort_values(['ปี', 'ไตรมาส'])

print("\nสรุปข้อมูลตามปีและไตรมาส:")
display(time_summary)

## 8. เตรียมข้อมูลสำหรับส่งต่อไปยัง Data Transformation

In [None]:
# บันทึกข้อมูลดิบ
raw_data_path = f"{project_path}/raw_employee_data.csv"
df.to_csv(raw_data_path, index=False)
print(f"บันทึกข้อมูลดิบไปยัง {raw_data_path} สำเร็จ")

# บันทึกข้อมูลสรุปเบื้องต้น
summary_path = f"{project_path}/initial_summary.csv"
region_summary.to_csv(summary_path, index=False)
print(f"บันทึกข้อมูลสรุปเบื้องต้นไปยัง {summary_path} สำเร็จ")

## 9. สรุปผลการดึงข้อมูล

In [None]:
# สรุปข้อมูลทั้งหมด
print("สรุปผลการดึงข้อมูล:")
print(f"- อ่านข้อมูลจากไฟล์ {file_path} สำเร็จ")
print(f"- ข้อมูลมีทั้งหมด {df.shape[0]} แถว และ {df.shape[1]} คอลัมน์")
print(f"- มีข้อมูลจาก {df['YEAR'].nunique()} ปี ({min(df['YEAR'])} - {max(df['YEAR'])})")
print(f"- มีข้อมูลจาก {df['QUARTER'].nunique()} ไตรมาส")
print(f"- มีข้อมูลจาก {df['REGION'].nunique()} ภูมิภาค")
print(f"- มีข้อมูลจาก {df['PROVINCE'].nunique()} จังหวัด")
print(f"- มีข้อมูลแยกตามเพศ {df['SEX'].nunique()} ประเภท")
print(f"- จำนวนพนักงานรวมทั้งหมด: {df['VALUE'].sum():,.2f} {df['UNIT'].iloc[0]}")
print(f"- ข้อมูลทั้งหมดได้รับจากแหล่งข้อมูล: {df['SOURCE'].iloc[0]}")

## 10. ข้อมูลเสร็จพร้อมสำหรับการแปลงข้อมูล (Data Transformation)

ดำเนินการดึงข้อมูลเสร็จสิ้น ข้อมูลพร้อมสำหรับขั้นตอนการแปลงข้อมูลในไฟล์ `02_Data_Transformation.ipynb`