<a href="https://colab.research.google.com/github/treekeaw1/-mana-bento-web/blob/main/Untitled38%E0%B8%84%E0%B8%B0%E0%B9%81%E0%B8%99%E0%B8%99%E0%B9%81%E0%B8%A1%E0%B9%88%E0%B8%99%E0%B8%AA%E0%B8%B9%E0%B8%87.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# -*- coding: utf-8 -*-
"""
ระบบทำนายผลล็อตเตอรี่สำหรับ Google Colab

ไฟล์นี้ประกอบด้วยฟังก์ชันทั้งหมดที่จำเป็นสำหรับการโหลดข้อมูลประวัติล็อตเตอรี่จากไฟล์ CSV,
วิเคราะห์สถิติช่องว่างการออกซ้ำ, ทำการ Backtesting วิธีการทำนายต่างๆ,
และให้ผลการทำนายสำหรับงวดถัดไป รวมถึง 'Smart Prediction' ที่ถ่วงน้ำหนัก
ตามความแม่นยำจากการ Backtesting.
"""

import pandas as pd
import io
from google.colab import files
from collections import Counter
import re # สำหรับการตรวจสอบรูปแบบวันที่

# --- 1. ฟังก์ชันช่วยเหลือและประมวลผลข้อมูล ---

def load_and_preprocess_data():
    """
    โหลดไฟล์ CSV จากผู้ใช้และประมวลผลข้อมูลประวัติล็อตเตอรี่

    Returns:
        pandas.DataFrame: DataFrame ที่มีข้อมูลประวัติที่ประมวลผลแล้ว
                          หรือ None หากเกิดข้อผิดพลาด
    """
    print("โปรดอัปโหลดไฟล์ CSV ที่มีข้อมูลประวัติ (เช่น 'lottery_history.csv').")
    print("ระบบจะพยายามอ่านไฟล์โดยข้ามบรรทัดที่ไม่ใช่ข้อมูลที่อยู่ตอนต้นและตอนท้าย")
    print("และคาดว่าข้อมูลจริงจะเริ่มต้นด้วยรูปแบบวันที่ (YYYY/MM/DD) ตามด้วย:")
    print("คอลัมน์ 1: วันที่ออกรางวัล (draw_date)")
    print("คอลัมน์ 2: รางวัลที่ 1 (first_prize - 6 หลัก)")
    print("คอลัมน์ 3: เลข 2 ตัวล่าง (last_two - 2 หลัก)")

    uploaded = files.upload()

    if not uploaded:
        print("ไม่ได้เลือกไฟล์ หรือการอัปโหลดถูกยกเลิก.")
        return None

    file_name = list(uploaded.keys())[0]
    print(f"ไฟล์ที่เลือก: {file_name}")

    raw_content = None
    # ลอง decode ด้วย encoding ที่พบบ่อย
    encodings_to_try_raw = ['utf-8', 'cp1252', 'latin1']
    for encoding in encodings_to_try_raw:
        try:
            raw_content = uploaded[file_name].decode(encoding)
            print(f"อ่านไฟล์ (raw) สำเร็จด้วย encoding: {encoding}")
            break
        except UnicodeDecodeError:
            print(f"ลองอ่าน (raw) ด้วย encoding '{encoding}' ล้มเหลว.")
            continue
        except Exception as e:
            print(f"ข้อผิดพลาดอื่น ๆ ในการอ่านไฟล์ (raw) ด้วย encoding '{encoding}': {e}")
            continue

    if raw_content is None:
        print("ไม่สามารถอ่านไฟล์ CSV ในรูปแบบ raw ได้ด้วย encoding ที่ลองทั้งหมด.")
        return None

    lines = raw_content.splitlines()

    # กรองบรรทัดเพื่อรวมเฉพาะบรรทัดที่เป็นข้อมูลจริง
    # บรรทัดข้อมูลจริงควรเริ่มต้นด้วยรูปแบบวันที่ (YYYY/MM/DD), มีอย่างน้อย 2 คอมมา,
    # และไม่มีข้อความ artifact ที่เป็นปัญหา

    date_start_pattern = re.compile(r'^\d{4}/\d{2}/\d{2},')
    artifact_string_check = '</artifact identifier="lottery_csv"' # ข้อความที่พบในบรรทัดที่เป็นปัญหา

    filtered_lines = []
    for line in lines:
        stripped_line = line.strip()
        # ตรวจสอบว่าบรรทัดเริ่มต้นด้วยรูปแบบวันที่ที่คาดหวัง และมีจำนวนคอมมาที่ถูกต้อง (สำหรับ 3 คอลัมน์)
        # และสำคัญคือต้องไม่มีข้อความ artifact ที่เป็นปัญหา
        if date_start_pattern.match(stripped_line) and stripped_line.count(',') >= 2 and artifact_string_check not in stripped_line:
            filtered_lines.append(stripped_line)
        # หากเราเริ่มรวบรวมข้อมูลที่ถูกต้องแล้ว และพบบรรทัดที่ไม่เป็นไปตามรูปแบบที่คาดหวัง
        # (เช่น บรรทัด artifact ที่อยู่ตอนท้ายไฟล์) ให้หยุดการรวบรวม
        elif filtered_lines and (not date_start_pattern.match(stripped_line) or stripped_line.count(',') < 2 or artifact_string_check in stripped_line):
            break
        # บรรทัดที่ไม่ตรงตามเงื่อนไขก่อนที่จะเริ่มพบข้อมูลจริงจะถูกข้ามไป

    if not filtered_lines:
        print("ไม่พบข้อมูลที่เริ่มต้นด้วยรูปแบบวันที่ที่คาดหวัง (YYYY/MM/DD) และมี 3 คอลัมน์ หรือไฟล์มีข้อมูลที่ไม่ถูกต้องแทรกอยู่.")
        print("โปรดตรวจสอบว่าไฟล์ CSV ของคุณมีข้อมูลเริ่มต้นด้วยรูปแบบวันที่ที่ถูกต้องและไม่มีข้อมูลที่ไม่เกี่ยวข้องแทรกอยู่.")
        return None

    clean_csv_content = "\n".join(filtered_lines)

    print("\n--- เนื้อหาไฟล์ CSV ที่ถูกกรองแล้ว (10 บรรทัดแรกและ 5 บรรทัดสุดท้าย) ---")
    for i, line in enumerate(clean_csv_content.splitlines()[:10]):
        print(f"Line {i+1}: {line}")
    if len(clean_csv_content.splitlines()) > 15: # เพื่อไม่ให้แสดงซ้ำถ้าไฟล์สั้นมาก
        print("...")
        for i, line in enumerate(clean_csv_content.splitlines()[-5:]):
            print(f"Line {len(clean_csv_content.splitlines()) - 5 + i + 1}: {line}")
    print("---------------------------------------------------\n")

    df = None
    encodings_to_try_pandas = ['utf-8', 'cp1252', 'latin1'] # ลอง encoding สำหรับ pandas.read_csv

    for encoding in encodings_to_try_pandas:
        try:
            # อ่าน CSV โดยไม่สนใจ header, ระบุ encoding, กำหนด delimiter, และข้ามช่องว่างนำหน้า
            df = pd.read_csv(io.StringIO(clean_csv_content), header=None, encoding=encoding, sep=',', skipinitialspace=True)
            print(f"อ่านไฟล์สำเร็จด้วย encoding: {encoding}")
            break # ถ้าอ่านสำเร็จก็หยุดลอง encoding อื่น
        except Exception as e:
            print(f"ลองอ่านด้วย encoding '{encoding}' ล้มเหลว: {e}")
            print(f"ข้อผิดพลาด: {e}") # แสดงข้อผิดพลาดเต็มๆ เพื่อการ debug
            continue

    if df is None:
        print("ไม่สามารถอ่านไฟล์ CSV ได้ด้วย encoding ที่ลองทั้งหมดหลังจากกรองบรรทัดที่ไม่เกี่ยวข้อง.")
        return None

    print("\n--- DataFrame (5 แถวแรก) หลังจากอ่าน CSV ---")
    print(df.head().to_string()) # ใช้ to_string() เพื่อแสดงผลเต็มบรรทัด
    print("\n--- DataFrame (5 แถวสุดท้าย) หลังจากอ่าน CSV ---")
    print(df.tail().to_string())
    print("---------------------------------------------------\n")

    try:
        # ตรวจสอบว่ามีคอลัมน์เพียงพอหรือไม่
        if df.shape[1] < 3:
            raise ValueError(f"ไฟล์ CSV มีจำนวนคอลัมน์ไม่เพียงพอ ({df.shape[1]} คอลัมน์) ต้องการอย่างน้อย 3 คอลัมน์.")

        # กำหนดชื่อคอลัมน์ใหม่ตามลำดับที่คาดไว้
        df.columns = ['draw_date', 'first_prize', 'last_two'] + [f'col_{i}' for i in range(3, df.shape[1])]

        # แปลง draw_date เป็น datetime โดยใช้ errors='coerce' เพื่อให้ค่าที่ไม่ถูกต้องเป็น NaT
        df['draw_date'] = pd.to_datetime(df['draw_date'], errors='coerce')
        # ลบแถวที่มี draw_date เป็น NaT ออก
        df.dropna(subset=['draw_date'], inplace=True)

        # แปลง first_prize เป็นตัวเลข, แล้วเป็นสตริง, แล้วเติม 0
        df['first_prize'] = pd.to_numeric(df['first_prize'], errors='coerce').astype('Int64') # ใช้ Int64 เพื่อรองรับ NaN
        df.dropna(subset=['first_prize'], inplace=True) # ลบแถวที่แปลงไม่ได้
        df['first_prize'] = df['first_prize'].astype(str).str.zfill(6)

        # แปลง last_two เป็นตัวเลข, แล้วเป็นสตริง, แล้วเติม 0
        df['last_two'] = pd.to_numeric(df['last_two'], errors='coerce').astype('Int64') # ใช้ Int64 เพื่อรองรับ NaN
        df.dropna(subset=['last_two'], inplace=True) # ลบแถวที่แปลงไม่ได้
        df['last_two'] = df['last_two'].astype(str).str.zfill(2)

        # เรียงลำดับข้อมูลตามวันที่
        df = df.sort_values(by='draw_date').reset_index(drop=True)

        print(f"โหลดข้อมูล {len(df)} งวดสำเร็จ และประมวลผลแล้ว.")
        return df

    except Exception as e:
        print(f"ข้อผิดพลาดในการประมวลผลไฟล์หลังจากอ่าน: {e} โปรดตรวจสอบรูปแบบข้อมูลในไฟล์ CSV.")
        return None

def calculate_gap_stats(numbers_list, num_type="Exact"):
    """
    คำนวณสถิติช่องว่างการออกซ้ำสำหรับรายการตัวเลข

    Args:
        numbers_list (list): รายการตัวเลข (หรือสตริงตัวเลข)
        num_type (str): ประเภทของตัวเลข (เช่น "First Prize Last 3 Exact")

    Returns:
        dict: พจนานุกรมที่มีสถิติช่องว่าง
    """
    last_seen = {}
    gaps = {}
    for i, num in enumerate(numbers_list):
        if num in last_seen:
            gap = i - last_seen[num]
            if num not in gaps:
                gaps[num] = []
            gaps[num].append(gap)
        last_seen[num] = i

    all_gaps = [gap for sublist in gaps.values() for gap in sublist]

    if not all_gaps:
        return {
            "Count": 0,
            "Avg Gap": 0,
            "Min Gap": 0,
            "Max Gap": 0,
            "Most Common Gaps": []
        }

    gap_counts = Counter(all_gaps)
    most_common_gaps = [gap for gap, _ in gap_counts.most_common(5)]

    return {
        "Count": len(all_gaps),
        "Avg Gap": sum(all_gaps) / len(all_gaps),
        "Min Gap": min(all_gaps),
        "Max Gap": max(all_gaps),
        "Most Common Gaps": most_common_gaps
    }

# --- 2. ฟังก์ชันการทำนายต่างๆ (ปรับปรุงให้เป็น Python) ---

def predict_ml(df_historical, num_type='first_prize_last_3'):
    """
    ทำนายโดยใช้ Machine Learning แบบง่าย (ค่าเฉลี่ยของงวดล่าสุด)

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'

    Returns:
        int: ตัวเลขที่ทำนายได้
    """
    if df_historical.empty:
        return 0

    if num_type == 'first_prize_last_3':
        numbers = df_historical['first_prize'].astype(str).str.slice(-3)
    else: # 'last_two'
        numbers = df_historical['last_two'].astype(str)

    # แปลงเป็น int อย่างปลอดภัย
    numbers_int = pd.to_numeric(numbers, errors='coerce').dropna()

    if numbers_int.empty:
        return 0

    # ใช้ค่าเฉลี่ยของ 5 งวดล่าสุดเป็นตัวแทน ML แบบง่าย
    last_few = numbers_int.tail(5)
    if last_few.empty:
        return 0
    return int(round(last_few.mean()))

def predict_last_digit_patterns(df_historical, num_type='first_prize_last_3'):
    """
    ทำนายโดยใช้แพทเทิร์นเลขท้าย (ตัวเลขที่ออกบ่อยที่สุด)

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'

    Returns:
        int: ตัวเลขที่ทำนายได้
    """
    if df_historical.empty:
        return 0

    if num_type == 'first_prize_last_3':
        numbers = df_historical['first_prize'].astype(str).str.slice(-3)
    else: # 'last_two'
        numbers = df_historical['last_two'].astype(str)

    numbers_int = pd.to_numeric(numbers, errors='coerce').dropna()

    if numbers_int.empty:
        return 0

    # หาตัวเลขที่ออกบ่อยที่สุด (mode)
    counts = Counter(numbers_int)
    if not counts:
        return 0
    return counts.most_common(1)[0][0]

def predict_parity_pattern(df_historical, num_type='first_prize_last_3'):
    """
    ทำนายโดยใช้แพทเทิร์นคู่/คี่

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'

    Returns:
        int: ตัวเลขตัวอย่างที่เป็นคู่หรือคี่ตามแพทเทิร์นที่พบบ่อย
    """
    if df_historical.empty:
        return 0

    if num_type == 'first_prize_last_3':
        numbers = df_historical['first_prize'].astype(str).str.slice(-3)
    else: # 'last_two'
        numbers = df_historical['last_two'].astype(str)

    numbers_int = pd.to_numeric(numbers, errors='coerce').dropna()

    if numbers_int.empty:
        return 0

    parities = [num % 2 for num in numbers_int]
    even_count = parities.count(0)
    odd_count = parities.count(1)

    # คืนค่าตัวเลขตัวอย่างที่เป็นคู่หรือคี่
    if even_count >= odd_count:
        return 246 if num_type == 'first_prize_last_3' else 50 # ตัวอย่างเลขคู่
    else:
        return 321 if num_type == 'first_prize_last_3' else 41 # ตัวอย่างเลขคี่

def predict_frequency_based(df_historical, num_type='first_prize_last_3'):
    """
    ทำนายโดยใช้ความถี่ (เหมือนกับ predict_last_digit_patterns สำหรับเวอร์ชันนี้)

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'

    Returns:
        int: ตัวเลขที่ทำนายได้
    """
    return predict_last_digit_patterns(df_historical, num_type)

def predict_positional_average(df_historical, num_type='first_prize_last_3', window=10):
    """
    ทำนายโดยหาค่าเฉลี่ยของตัวเลขในแต่ละตำแหน่งหลัก

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'
        window (int): จำนวนงวดล่าสุดที่จะใช้คำนวณ

    Returns:
        int: ตัวเลขที่ทำนายได้
    """
    if df_historical.empty:
        return 0

    target_len = 3 if num_type == 'first_prize_last_3' else 2
    if num_type == 'first_prize_last_3':
        numbers_str_series = df_historical['first_prize'].astype(str).str.slice(-3).tail(window)
    else: # 'last_two'
        numbers_str_series = df_historical['last_two'].astype(str).tail(window)

    if numbers_str_series.empty:
        return 0

    predicted_digits = []
    for i in range(target_len):
        digits_at_pos = []
        for s in numbers_str_series:
            if isinstance(s, str) and i < len(s) and s[i].isdigit():
                digits_at_pos.append(int(s[i]))

        if digits_at_pos:
            avg_digit = round(sum(digits_at_pos) / len(digits_at_pos))
            predicted_digits.append(str(avg_digit))
        else:
            predicted_digits.append('0') # กรณีไม่มีข้อมูลสำหรับตำแหน่งนั้น

    return int("".join(predicted_digits).zfill(target_len))


def predict_sum_of_periods(df_historical, num_type='first_prize_last_3', periods=3):
    """
    ทำนายโดยใช้ผลรวมของตัวเลขจากงวดย้อนหลัง

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติ
        num_type (str): 'first_prize_last_3' หรือ 'last_two'
        periods (int): จำนวนงวดย้อนหลังที่จะรวม

    Returns:
        int: ตัวเลขที่ทำนายได้
    """
    if df_historical.empty:
        return 0

    if num_type == 'first_prize_last_3':
        numbers = df_historical['first_prize'].astype(str).str.slice(-3)
        mod_val = 1000
    else: # 'last_two'
        numbers = df_historical['last_two'].astype(str)
        mod_val = 100 # แก้ไข: เพิ่มการกำหนดค่า mod_val สำหรับกรณี 'last_two'

    numbers_int = pd.to_numeric(numbers, errors='coerce').dropna()

    if len(numbers_int) < periods:
        return 0

    sum_last_periods = numbers_int.tail(periods).sum()
    return sum_last_periods % mod_val

# --- 3. ฟังก์ชัน Backtesting ---

def run_backtesting(df_historical_full, num_backtest_periods=50):
    """
    จำลองการทำนายย้อนหลังเพื่อประเมินความแม่นยำของแต่ละวิธีทำนาย

    Args:
        df_historical_full (pd.DataFrame): DataFrame ข้อมูลประวัติทั้งหมด
        num_backtest_periods (int): จำนวนงวดที่จะใช้ในการ Backtest

    Returns:
        dict: ผลลัพธ์ความแม่นยำสำหรับแต่ละวิธีการทำนาย
    """
    results = {}
    total_tests = num_backtest_periods

    # ตรวจสอบว่ามีข้อมูลเพียงพอสำหรับการ Backtesting หรือไม่
    # ต้องการข้อมูลอย่างน้อย (num_backtest_periods + window_size_for_prediction)
    # เช่น positional average (10) ต้องการ 10 งวด, sum of 7 periods ต้องการ 7 งวด
    # ดังนั้นควรมีข้อมูลมากกว่า num_backtest_periods + max_window_size (เช่น 10)
    min_required_data = num_backtest_periods + 10 # 10 คือ window สูงสุดที่ใช้ใน predict_positional_average
    if len(df_historical_full) < min_required_data:
        print(f"ข้อควรระวัง: ข้อมูลประวัติไม่เพียงพอสำหรับการ Backtesting {num_backtest_periods} งวด.")
        print(f"ต้องการอย่างน้อย {min_required_data} งวด แต่มีเพียง {len(df_historical_full)} งวด.")
        print("การ Backtesting อาจไม่สมบูรณ์หรือให้ผลลัพธ์ที่ไม่น่าเชื่อถือ.")
        # ปรับลด num_backtest_periods ถ้าข้อมูลไม่พอ
        if len(df_historical_full) > 10: # ต้องมีข้อมูลอย่างน้อย 10 งวดเพื่อเริ่มทำนายได้
            total_tests = len(df_historical_full) - 10
            print(f"จะทำการ Backtesting เพียง {total_tests} งวดแทน.")
        else:
            return {} # ถ้าข้อมูลน้อยเกินไป ก็ไม่ทำ Backtesting

    methods = [
        'ML Prediction', 'Last Digit Patterns', 'Parity Pattern', 'Frequency Based',
        'Positional Average (10)', 'Sum of 3 Periods', 'Sum of 7 Periods', 'Positional Average (5)'
    ]

    for method in methods:
        results[method] = {
            'first_prize_last_3_correct': 0,
            'last_two_exact_correct': 0,
            'first_prize_last_3_accuracy': 0,
            'last_two_exact_accuracy': 0
        }

    for i in range(total_tests):
        # กำหนดช่วงข้อมูลสำหรับฝึก (ทั้งหมดก่อนงวดทดสอบปัจจุบัน)
        # train_end_index คือ index ของงวดสุดท้ายในชุดข้อมูลฝึก
        train_end_index = len(df_historical_full) - total_tests + i - 1
        # test_index คือ index ของงวดที่จะใช้ทดสอบ
        test_index = len(df_historical_full) - total_tests + i

        if train_end_index < 0 or test_index >= len(df_historical_full):
            continue

        df_train_raw = df_historical_full.iloc[:train_end_index + 1]

        # ดึงค่าจริงที่เป็นสตริงออกมา
        actual_first_prize_val_str = df_historical_full.iloc[test_index]['first_prize']
        actual_last_two_val_str = df_historical_full.iloc[test_index]['last_two']

        # แปลงค่าจริงเป็นตัวเลขสำหรับการเปรียบเทียบ
        actual_first_prize_last_3 = pd.to_numeric(actual_first_prize_val_str[-3:], errors='coerce')
        actual_last_two = pd.to_numeric(actual_last_two_val_str, errors='coerce')

        # ข้ามงวดที่มีค่าจริงเป็น NaN
        if pd.isna(actual_first_prize_last_3) or pd.isna(actual_last_two):
            continue

        # ทำการทำนายและเปรียบเทียบ
        ml_pred_first_3 = predict_ml(df_train_raw, 'first_prize_last_3')
        ml_pred_last_2 = predict_ml(df_train_raw, 'last_two')
        if ml_pred_first_3 == actual_first_prize_last_3: results['ML Prediction']['first_prize_last_3_correct'] += 1
        if ml_pred_last_2 == actual_last_two: results['ML Prediction']['last_two_exact_correct'] += 1

        pred_first_3_last_digit = predict_last_digit_patterns(df_train_raw, 'first_prize_last_3')
        pred_last_2_last_digit = predict_last_digit_patterns(df_train_raw, 'last_two')
        if pred_first_3_last_digit == actual_first_prize_last_3: results['Last Digit Patterns']['first_prize_last_3_correct'] += 1
        if pred_last_2_last_digit == actual_last_two: results['Last Digit Patterns']['last_two_exact_correct'] += 1

        pred_first_3_parity = predict_parity_pattern(df_train_raw, 'first_prize_last_3')
        pred_last_2_parity = predict_parity_pattern(df_train_raw, 'last_two')
        # สำหรับ Parity, ตรวจสอบว่าคู่/คี่ตรงกันหรือไม่
        if (pred_first_3_parity % 2) == (actual_first_prize_last_3 % 2): results['Parity Pattern']['first_prize_last_3_correct'] += 1
        if (pred_last_2_parity % 2) == (actual_last_two % 2): results['Parity Pattern']['last_two_exact_correct'] += 1

        pred_first_3_freq = predict_frequency_based(df_train_raw, 'first_prize_last_3')
        pred_last_2_freq = predict_frequency_based(df_train_raw, 'last_two')
        if pred_first_3_freq == actual_first_prize_last_3: results['Frequency Based']['first_prize_last_3_correct'] += 1
        if pred_last_2_freq == actual_last_two: results['Frequency Based']['last_two_exact_correct'] += 1

        pred_first_3_pos_avg_10 = predict_positional_average(df_train_raw, 'first_prize_last_3', 10)
        pred_last_2_pos_avg_10 = predict_positional_average(df_train_raw, 'last_two', 10)
        if pred_first_3_pos_avg_10 == actual_first_prize_last_3: results['Positional Average (10)']['first_prize_last_3_correct'] += 1
        if pred_last_2_pos_avg_10 == actual_last_two: results['Positional Average (10)']['last_two_exact_correct'] += 1

        pred_first_3_sum_3 = predict_sum_of_periods(df_train_raw, 'first_prize_last_3', 3)
        pred_last_2_sum_3 = predict_sum_of_periods(df_train_raw, 'last_two', 3)
        if pred_first_3_sum_3 == actual_first_prize_last_3: results['Sum of 3 Periods']['first_prize_last_3_correct'] += 1
        if pred_last_2_sum_3 == actual_last_two: results['Sum of 3 Periods']['last_two_exact_correct'] += 1

        pred_first_3_sum_7 = predict_sum_of_periods(df_train_raw, 'first_prize_last_3', 7)
        pred_last_2_sum_7 = predict_sum_of_periods(df_train_raw, 'last_two', 7)
        if pred_first_3_sum_7 == actual_first_prize_last_3: results['Sum of 7 Periods']['first_prize_last_3_correct'] += 1
        if pred_last_2_sum_7 == actual_last_two: results['Sum of 7 Periods']['last_two_exact_correct'] += 1

        pred_first_3_pos_avg_5 = predict_positional_average(df_train_raw, 'first_prize_last_3', 5)
        pred_last_2_pos_avg_5 = predict_positional_average(df_train_raw, 'last_two', 5)
        if pred_first_3_pos_avg_5 == actual_first_prize_last_3: results['Positional Average (5)']['first_prize_last_3_correct'] += 1
        if pred_last_2_pos_avg_5 == actual_last_two: results['Positional Average (5)']['last_two_exact_correct'] += 1

    # คำนวณเปอร์เซ็นต์ความแม่นยำสุดท้าย
    for method in results:
        results[method]['first_prize_last_3_accuracy'] = (results[method]['first_prize_last_3_correct'] / total_tests) * 100 if total_tests > 0 else 0
        results[method]['last_two_exact_accuracy'] = (results[method]['last_two_exact_correct'] / total_tests) * 100 if total_tests > 0 else 0
    return results

# --- 4. ฟังก์ชัน Smart Prediction ---

def smart_prediction(df_historical, backtest_results):
    """
    คำนวณการทำนายรวม (Smart Prediction) โดยถ่วงน้ำหนักด้วยความแม่นยำจากการ Backtesting

    Args:
        df_historical (pd.DataFrame): DataFrame ข้อมูลประวัติทั้งหมด
        backtest_results (dict): ผลลัพธ์ความแม่นยำจากการ Backtesting

    Returns:
        dict: การทำนายรวมสำหรับเลขท้าย 3 ตัว และเลข 2 ตัวล่าง
    """
    if df_historical.empty:
        return {'first_3': '000', 'last_2': '00'}

    # ทำการทำนายจากแต่ละวิธีสำหรับงวดถัดไปโดยใช้ข้อมูลทั้งหมด
    all_preds_first_3 = {
        'ML Prediction': predict_ml(df_historical, 'first_prize_last_3'),
        'Last Digit Patterns': predict_last_digit_patterns(df_historical, 'first_prize_last_3'),
        'Parity Pattern': predict_parity_pattern(df_historical, 'first_prize_last_3'),
        'Frequency Based': predict_frequency_based(df_historical, 'first_prize_last_3'),
        'Positional Average (10)': predict_positional_average(df_historical, 'first_prize_last_3', 10),
        'Sum of 3 Periods': predict_sum_of_periods(df_historical, 'first_prize_last_3', 3),
        'Sum of 7 Periods': predict_sum_of_periods(df_historical, 'first_prize_last_3', 7),
        'Positional Average (5)': predict_positional_average(df_historical, 'first_prize_last_3', 5),
    }

    all_preds_last_2 = {
        'ML Prediction': predict_ml(df_historical, 'last_two'),
        'Last Digit Patterns': predict_last_digit_patterns(df_historical, 'last_two'),
        'Parity Pattern': predict_parity_pattern(df_historical, 'last_two'),
        'Frequency Based': predict_frequency_based(df_historical, 'last_two'),
        'Positional Average (10)': predict_positional_average(df_historical, 'last_two', 10),
        'Sum of 3 Periods': predict_sum_of_periods(df_historical, 'last_two', 3),
        'Sum of 7 Periods': predict_sum_of_periods(df_historical, 'last_two', 7),
        'Positional Average (5)': predict_positional_average(df_historical, 'last_two', 5),
    }

    weighted_sum_first_3 = 0
    total_weight_first_3 = 0
    weighted_sum_last_2 = 0
    total_weight_last_2 = 0

    # คำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับเลขท้าย 3 ตัว
    for method, pred_val in all_preds_first_3.items():
        weight = backtest_results.get(method, {}).get('first_prize_last_3_accuracy', 0)
        weighted_sum_first_3 += pred_val * weight
        total_weight_first_3 += weight

    # คำนวณค่าเฉลี่ยถ่วงน้ำหนักสำหรับเลข 2 ตัวล่าง
    for method, pred_val in all_preds_last_2.items():
        weight = backtest_results.get(method, {}).get('last_two_exact_accuracy', 0)
        weighted_sum_last_2 += pred_val * weight
        total_weight_last_2 += weight

    # ผลลัพธ์สุดท้ายคือค่าเฉลี่ยถ่วงน้ำหนักที่ปัดเศษ
    # หากไม่มีน้ำหนัก (เช่น ไม่มีผล Backtest), ให้ใช้ ML prediction เป็นค่าเริ่มต้น
    final_pred_first_3 = round(weighted_sum_first_3 / total_weight_first_3) if total_weight_first_3 > 0 else all_preds_first_3['ML Prediction']
    final_pred_last_2 = round(weighted_sum_last_2 / total_weight_last_2) if total_weight_last_2 > 0 else all_preds_last_2['ML Prediction']

    return {
        'first_3': str(int(final_pred_first_3)).zfill(3),
        'last_2': str(int(final_pred_last_2)).zfill(2)
    }

# --- ส่วนหลักของการรันระบบใน Colab ---

if __name__ == "__main__":
    print("--- ระบบทำนายผลล็อตเตอรี่ (สำหรับ Google Colab) ---")

    # ขั้นตอนที่ 1: โหลดข้อมูลประวัติ
    df_historical = load_and_preprocess_data()

    if df_historical is None:
        print("ไม่สามารถดำเนินการต่อได้เนื่องจากโหลดข้อมูลไม่สำเร็จ.")
    else:
        # ขั้นตอนที่ 2: วิเคราะห์แพทเทิร์นการออกซ้ำทั่วโลก
        print("\n--- ขั้นตอนที่ 2: วิเคราะห์แพทเทิร์นการออกซ้ำทั่วโลก ---")
        # ตรวจสอบว่าคอลัมน์มีข้อมูลที่ถูกต้องก่อน slice
        first_prize_last_3_exact = df_historical['first_prize'].astype(str).str.slice(-3).tolist()
        # กรองค่าที่ไม่ใช่ตัวเลขออกก่อนที่จะทำ permute
        first_prize_last_3_permuted = [''.join(sorted(list(x))) for x in first_prize_last_3_exact if x.isdigit()]

        last_two_exact = df_historical['last_two'].astype(str).tolist()
        # กรองค่าที่ไม่ใช่ตัวเลขออกก่อนที่จะทำ swap
        last_two_swapped = [''.join(reversed(list(x))) for x in last_two_exact if x.isdigit()]

        gap_stats_first_3_exact = calculate_gap_stats(first_prize_last_3_exact, "First Prize Last 3 Exact")
        gap_stats_first_3_permuted = calculate_gap_stats(first_prize_last_3_permuted, "First Prize Last 3 Permuted")
        gap_stats_last_2_exact = calculate_gap_stats(last_two_exact, "Last Two Exact")
        gap_stats_last_2_swapped = calculate_gap_stats(last_two_swapped, "Last Two Swapped")

        print("\nสรุปสถิติช่องว่างการออกซ้ำ:")
        print(f"  - First Prize Last 3 Exact: {gap_stats_first_3_exact}")
        print(f"  - First Prize Last 3 Permuted: {gap_stats_first_3_permuted}")
        print(f"  - Last Two Exact: {gap_stats_last_2_exact}")
        print(f"  - Last Two Swapped: {gap_stats_last_2_swapped}")

        # ขั้นตอนที่ 3: สรุปผล Backtesting ของแต่ละวิธีการ
        print("\n--- ⭐ สรุปผล Backtesting ของแต่ละวิธีการ ---")
        num_backtest_periods = 50 # จำนวนงวดที่จะใช้ในการ Backtest
        print(f"ระบบกำลังจำลองการทำนายย้อนหลัง {num_backtest_periods} งวด เพื่อประเมินความแม่นยำของแต่ละวิธีทำนาย")
        print("(ผลลัพธ์อาจไม่แม่นยำเท่า Python เนื่องจากข้อจำกัดของ JS ในการทำ Machine Learning ที่ซับซ้อน)")

        backtest_results = run_backtesting(df_historical, num_backtest_periods)

        if backtest_results:
            for method, accs in backtest_results.items():
                print(f"\n- {method}:")
                print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {accs['first_prize_last_3_accuracy']:.2f}%")
                print(f"  - เลข 2 ตัวล่าง (ถูกเป๊ะ): {accs['last_two_exact_accuracy']:.2f}%")
        else:
            print("ไม่สามารถทำการ Backtesting ได้ โปรดตรวจสอบข้อมูลและจำนวนงวด.")

        # ขั้นตอนที่ 4: ผลการทำนายสำหรับงวดถัดไป
        print("\n--- 🔮 ผลการทำนายสำหรับงวดถัดไป (แต่ละวิธี) ---")
        # ตรวจสอบให้แน่ใจว่า df_historical มีข้อมูลเพียงพอก่อนเรียกใช้ predict_ functions
        if len(df_historical) > 10: # ตัวอย่าง: ต้องการอย่างน้อย 10 งวดสำหรับ positional average
            ml_pred_first_3 = str(predict_ml(df_historical, 'first_prize_last_3')).zfill(3)
            ml_pred_last_2 = str(predict_ml(df_historical, 'last_two')).zfill(2)

            pred_first_3_last_digit = str(predict_last_digit_patterns(df_historical, 'first_prize_last_3')).zfill(3)
            pred_last_2_last_digit = str(predict_last_digit_patterns(df_historical, 'last_two')).zfill(2)

            pred_first_3_parity = str(predict_parity_pattern(df_historical, 'first_prize_last_3')).zfill(3)
            pred_last_2_parity = str(predict_parity_pattern(df_historical, 'last_two')).zfill(2)

            pred_first_3_freq = str(predict_frequency_based(df_historical, 'first_prize_last_3')).zfill(3)
            pred_last_2_freq = str(predict_frequency_based(df_historical, 'last_two')).zfill(2)

            pred_first_3_pos_avg_10 = str(predict_positional_average(df_historical, 'first_prize_last_3', 10)).zfill(3)
            pred_last_2_pos_avg_10 = str(predict_positional_average(df_historical, 'last_two', 10)).zfill(2)

            pred_first_3_sum_3 = str(predict_sum_of_periods(df_historical, 'first_prize_last_3', 3)).zfill(3)
            pred_last_2_sum_3 = str(predict_sum_of_periods(df_historical, 'last_two', 3)).zfill(2)

            pred_first_3_sum_7 = str(predict_sum_of_periods(df_historical, 'first_prize_last_3', 7)).zfill(3)
            pred_last_2_sum_7 = str(predict_sum_of_periods(df_historical, 'last_two', 7)).zfill(2)

            pred_first_3_pos_avg_5 = str(predict_positional_average(df_historical, 'first_prize_last_3', 5)).zfill(3)
            pred_last_2_pos_avg_5 = str(predict_positional_average(df_historical, 'last_two', 5)).zfill(2)

            print("- ML Prediction:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {ml_pred_first_3}")
            print(f"  - เลข 2 ตัวล่าง: {ml_pred_last_2}")
            print("- Last Digit Patterns:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_last_digit}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_last_digit}")
            print("- Parity Pattern:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_parity}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_parity}")
            print("- Frequency Based:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_freq}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_freq}")
            print("- Positional Average (10):")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_pos_avg_10}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_pos_avg_10}")
            print("- Sum of 3 Periods:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_sum_3}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_sum_3}")
            print("- Sum of 7 Periods:")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_sum_7}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_sum_7}")
            print("- Positional Average (5):")
            print(f"  - รางวัลที่ 1 (เลขท้าย 3 ตัว): {pred_first_3_pos_avg_5}")
            print(f"  - เลข 2 ตัวล่าง: {pred_last_2_pos_avg_5}")

            print("\n--- ✨ การทำนายรวม (Smart Prediction) ---")
            print("การทำนายรวมนี้ใช้ผลลัพธ์ความแม่นยำจากการ Backtesting มาถ่วงน้ำหนักการทำนายของแต่ละวิธี เพื่อให้ได้ผลลัพธ์ที่แม่นยำที่สุด")
            if backtest_results:
                smart_pred = smart_prediction(df_historical, backtest_results)
                print(f"- รางวัลที่ 1 (เลขท้าย 3 ตัว): {smart_pred['first_3']}")
                print(f"- เลข 2 ตัวล่าง: {smart_pred['last_2']}")
            else:
                print("ไม่สามารถคำนวณ Smart Prediction ได้ เนื่องจากไม่มีผล Backtesting.")
        else:
            print("ไม่สามารถทำการทำนายได้ เนื่องจากข้อมูลประวัติมีไม่เพียงพอสำหรับการคำนวณ.")


--- ระบบทำนายผลล็อตเตอรี่ (สำหรับ Google Colab) ---
โปรดอัปโหลดไฟล์ CSV ที่มีข้อมูลประวัติ (เช่น 'lottery_history.csv').
ระบบจะพยายามอ่านไฟล์โดยข้ามบรรทัดที่ไม่ใช่ข้อมูลที่อยู่ตอนต้นและตอนท้าย
และคาดว่าข้อมูลจริงจะเริ่มต้นด้วยรูปแบบวันที่ (YYYY/MM/DD) ตามด้วย:
คอลัมน์ 1: วันที่ออกรางวัล (draw_date)
คอลัมน์ 2: รางวัลที่ 1 (first_prize - 6 หลัก)
คอลัมน์ 3: เลข 2 ตัวล่าง (last_two - 2 หลัก)


Saving ไฟล์พร้อมใช้งาน.csv to ไฟล์พร้อมใช้งาน.csv
ไฟล์ที่เลือก: ไฟล์พร้อมใช้งาน.csv
อ่านไฟล์ (raw) สำเร็จด้วย encoding: utf-8

--- เนื้อหาไฟล์ CSV ที่ถูกกรองแล้ว (10 บรรทัดแรกและ 5 บรรทัดสุดท้าย) ---
Line 1: 2025/06/16,507392,06
Line 2: 2025/06/01,559352,20
Line 3: 2025/05/16,251309,87
Line 4: 2025/05/02,213388,06
Line 5: 2025/04/16,266227,85
Line 6: 2025/04/01,669687,36
Line 7: 2025/03/16,757563,32
Line 8: 2025/03/01,818894,54
Line 9: 2025/02/16,847377,50
Line 10: 2025/02/01,558700,51
...
Line 556: 2002/03/16,659152,04
Line 557: 2002/03/01,805590,55
Line 558: 2002/02/16,330853,92
Line 559: 2002/02/01,633270,40
Line 560: 2002/01/16,709670,14
---------------------------------------------------

อ่านไฟล์สำเร็จด้วย encoding: utf-8

--- DataFrame (5 แถวแรก) หลังจากอ่าน CSV ---
            0       1   2
0  2025/06/16  507392   6
1  2025/06/01  559352  20
2  2025/05/16  251309  87
3  2025/05/02  213388   6
4  2025/04/16  266227  85

--- DataFrame (5 แถวสุดท้าย) หลังจากอ่าน CSV ---
          