Change Data to YYYY-MM-DD

In [1]:
import pandas as pd
import os

# ฟังก์ชันสำหรับการเปลี่ยนรูปแบบวันที่
def change_date_format(input_dir, output_dir):
    # ตรวจสอบว่า output_dir มีอยู่หรือไม่ ถ้าไม่มีก็สร้างใหม่
    os.makedirs(output_dir, exist_ok=True)

    # ลูปผ่านไฟล์ทั้งหมดในโฟลเดอร์ input_dir
    for file_name in os.listdir(input_dir):
        if file_name.endswith('.csv'):
            input_file_path = os.path.join(input_dir, file_name)
            output_file_path = os.path.join(output_dir, file_name)

            # อ่านไฟล์ CSV
            df = pd.read_csv(input_file_path)

            # ตรวจสอบว่า 'Date' คอลัมน์มีอยู่ใน DataFrame หรือไม่
            if 'Date' in df.columns:
                # แปลงคอลัมน์ 'Date' เป็น datetime object โดยใช้ format '%y-%m-%d' และแปลงให้เป็นรูปแบบ 'YYYY-MM-DD'
                df['Date'] = pd.to_datetime(df['Date'], format='%y-%m-%d').dt.strftime('%Y-%m-%d')

                # บันทึกไฟล์ที่มีการเปลี่ยนแปลงลงในโฟลเดอร์ output_dir
                df.to_csv(output_file_path, index=False, encoding='utf-8-sig')
                print(f"✅ {file_name} processed and saved to {output_file_path}")
            else:
                print(f"⚠️ 'Date' column not found in {file_name}, skipping this file.")

# กำหนดที่อยู่ของโฟลเดอร์ข้อมูล
input_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Connect the provice/Selected_Province"
output_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year"

# เรียกใช้ฟังก์ชัน
change_date_format(input_dir, output_dir)

✅ selected_processed_20221002.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20221002.csv
✅ selected_processed_20221016.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20221016.csv
✅ selected_processed_20220308.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20220308.csv
✅ selected_processed_20220320.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20220320.csv
✅ selected_processed_20231013.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20231013.csv
✅ selected_processed_20230319.csv processed and saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year/selected_processed_20230319.csv
✅ selected_processed_2023100

combine 2024 file

In [3]:
import pandas as pd
import os

# ฟังก์ชันสำหรับการรวมไฟล์ CSV
def combine_files(input_dir, output_file):
    # สร้าง DataFrame ว่างๆ สำหรับการรวมข้อมูล
    combined_df = pd.DataFrame()

    # ลูปผ่านไฟล์ทั้งหมดในโฟลเดอร์
    for file_name in os.listdir(input_dir):
        if file_name.endswith('.csv'):
            input_file_path = os.path.join(input_dir, file_name)

            try:
                # อ่านไฟล์ CSV
                df = pd.read_csv(input_file_path)

                # ตรวจสอบว่า Date คอลัมน์มีอยู่หรือไม่
                if 'Date' not in df.columns:
                    print(f"⚠️ Missing 'Date' column in {file_name}. Skipping this file.")
                    continue

                # รวมข้อมูลเข้าไปใน combined_df
                combined_df = pd.concat([combined_df, df], ignore_index=True)

            except Exception as e:
                # ถ้ามีข้อผิดพลาดในการอ่านไฟล์ให้ปริ้นชื่อไฟล์ที่มีปัญหา
                print(f"⚠️ Error reading {file_name}: {e}")
    
    # บันทึกข้อมูลรวมทั้งหมดลงในไฟล์ output
    if not combined_df.empty:
        combined_df.to_csv(output_file, index=False, encoding='utf-8-sig')
        print(f"✅ Combined data saved to {output_file}")
    else:
        print("⚠️ No valid data to combine.")

# กำหนดที่อยู่ของโฟลเดอร์ข้อมูล
input_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year_2024"
output_file = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/combined_2024.csv"

# เรียกใช้ฟังก์ชัน
combine_files(input_dir, output_file)

✅ Combined data saved to /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/combined_2024.csv


In [4]:
import pandas as pd
import os

# input และ output folder
input_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year_2022"
output_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022"

# ถ้าไม่มีโฟลเดอร์ output ให้สร้างใหม่
os.makedirs(output_dir, exist_ok=True)

# loop ทุกไฟล์ในโฟลเดอร์
for file_name in os.listdir(input_dir):
    if file_name.endswith(".csv"):
        input_file = os.path.join(input_dir, file_name)
        output_file = os.path.join(output_dir, f"cleaned_{file_name}")

        try:
            # อ่านไฟล์
            df = pd.read_csv(input_file)

            # 1. แปลงชนิดข้อมูล
            df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
            df['speed_kmh'] = pd.to_numeric(df['speed_kmh'], errors='coerce')

            # 2. ลบแถวที่ไม่มี Date หรือ Province
            df = df.dropna(subset=['Date', 'Province_en'])

            # 3. ลบข้อมูลซ้ำ
            df = df.drop_duplicates()

            # 4. Clean ค่า speed_kmh (ไม่เอาค่าติดลบ และถ้าเกิน 200 ถือว่าผิดปกติ)
            df = df[(df['speed_kmh'] >= 0) & (df['speed_kmh'] <= 200)]

            # 5. Strip ช่องว่างและทำให้ชื่อจังหวัดเป็น Title Case
            df['Province_en'] = df['Province_en'].str.strip().str.title()

            # บันทึกไฟล์ที่ clean แล้ว
            df.to_csv(output_file, index=False, encoding="utf-8-sig")
            print(f"✅ Cleaned and saved: {output_file}")

        except Exception as e:
            print(f"⚠️ Error processing {file_name}: {e}")

✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20221002.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20221016.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20220308.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20220320.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20220321.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20220309.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2022/cleaned_selected_processed_20221017.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean

In [5]:
import pandas as pd
import os

# input และ output folder
input_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year_2023"
output_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023"

# ถ้าไม่มีโฟลเดอร์ output ให้สร้างใหม่
os.makedirs(output_dir, exist_ok=True)

# loop ทุกไฟล์ในโฟลเดอร์
for file_name in os.listdir(input_dir):
    if file_name.endswith(".csv"):
        input_file = os.path.join(input_dir, file_name)
        output_file = os.path.join(output_dir, f"cleaned_{file_name}")

        try:
            # อ่านไฟล์
            df = pd.read_csv(input_file)

            # 1. แปลงชนิดข้อมูล
            df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
            df['speed_kmh'] = pd.to_numeric(df['speed_kmh'], errors='coerce')

            # 2. ลบแถวที่ไม่มี Date หรือ Province
            df = df.dropna(subset=['Date', 'Province_en'])

            # 3. ลบข้อมูลซ้ำ
            df = df.drop_duplicates()

            # 4. Clean ค่า speed_kmh (ไม่เอาค่าติดลบ และถ้าเกิน 200 ถือว่าผิดปกติ)
            df = df[(df['speed_kmh'] >= 0) & (df['speed_kmh'] <= 200)]

            # 5. Strip ช่องว่างและทำให้ชื่อจังหวัดเป็น Title Case
            df['Province_en'] = df['Province_en'].str.strip().str.title()

            # บันทึกไฟล์ที่ clean แล้ว
            df.to_csv(output_file, index=False, encoding="utf-8-sig")
            print(f"✅ Cleaned and saved: {output_file}")

        except Exception as e:
            print(f"⚠️ Error processing {file_name}: {e}")

✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20231013.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20230319.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20231007.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20230331.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20230325.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20230324.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2023/cleaned_selected_processed_20230330.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean

In [6]:
import pandas as pd
import os

# input และ output folder
input_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/rewrite_year_2024"
output_dir = "/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024"

# ถ้าไม่มีโฟลเดอร์ output ให้สร้างใหม่
os.makedirs(output_dir, exist_ok=True)

# loop ทุกไฟล์ในโฟลเดอร์
for file_name in os.listdir(input_dir):
    if file_name.endswith(".csv"):
        input_file = os.path.join(input_dir, file_name)
        output_file = os.path.join(output_dir, f"cleaned_{file_name}")

        try:
            # อ่านไฟล์
            df = pd.read_csv(input_file)

            # 1. แปลงชนิดข้อมูล
            df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
            df['speed_kmh'] = pd.to_numeric(df['speed_kmh'], errors='coerce')

            # 2. ลบแถวที่ไม่มี Date หรือ Province
            df = df.dropna(subset=['Date', 'Province_en'])

            # 3. ลบข้อมูลซ้ำ
            df = df.drop_duplicates()

            # 4. Clean ค่า speed_kmh (ไม่เอาค่าติดลบ และถ้าเกิน 200 ถือว่าผิดปกติ)
            df = df[(df['speed_kmh'] >= 0) & (df['speed_kmh'] <= 200)]

            # 5. Strip ช่องว่างและทำให้ชื่อจังหวัดเป็น Title Case
            df['Province_en'] = df['Province_en'].str.strip().str.title()

            # บันทึกไฟล์ที่ clean แล้ว
            df.to_csv(output_file, index=False, encoding="utf-8-sig")
            print(f"✅ Cleaned and saved: {output_file}")

        except Exception as e:
            print(f"⚠️ Error processing {file_name}: {e}")

✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241127.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241126.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241130.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241124.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241118.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241119.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Year_Sep/cleaned_2024/cleaned_selected_processed_20241125.csv
✅ Cleaned and saved: /Users/kukkaii/Documents/DA PRoject/Clean

Extra Part

In [6]:
import pandas as pd

# Load the CSV file
file_path = '/Users/kukkaii/Documents/DA PRoject/Clean_RoadData/Tambon/Processed_traffic_jam_index(Final)/road_combined_2022.csv'
data = pd.read_csv(file_path)

# Filter the data where speed_kmh is not equal to 0
filtered_data = data[data['speed_kmh'] != 0]

# Display rows 5 to 10 as DataFrame
filtered_data_subset = filtered_data.iloc[5:11]  # Get rows 5 to 10

# Show the resulting DataFrame
print(filtered_data_subset)

          Date  speed_kmh    Province_en  Traffic_jam_index
12  2022-03-05         50        Bangkok           0.255668
13  2022-03-05         45   Samut Sakhon           0.186708
14  2022-03-05         83   Pathum Thani           0.185225
15  2022-03-05         20        Bangkok           0.255668
17  2022-03-05         25  Nakhon Pathom           0.203593
18  2022-03-05         43   Pathum Thani           0.185225
