<a href="https://colab.research.google.com/github/treekeaw1/-mana-bento-web/blob/main/Untitled36_%E0%B8%97%E0%B8%B3%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B8%94%E0%B9%89%E0%B8%A7%E0%B8%A2%E0%B8%AA%E0%B8%96%E0%B8%B4%E0%B8%95%E0%B8%B4%E0%B9%83%E0%B8%99%E0%B8%AD%E0%B8%94%E0%B8%B5%E0%B8%95ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
import re
from datetime import datetime, timedelta

# --- เซลล์ที่ 1: การเตรียมและทำความสะอาดข้อมูล ---

print("--- เซลล์ที่ 1: การเตรียมและทำความสะอาดข้อมูล ---")
print("🔄 กำลังโหลดและทำความสะอาดข้อมูลจาก 'ไฟล์พร้อมใช้งาน.csv'...")

file_path = 'ไฟล์พร้อมใช้งาน.csv'
df = None
original_df_rows_count = 0 # จะนับจำนวนแถวในไฟล์ดิบก่อนการประมวลผล

try:
    # 1. โหลดไฟล์ CSV โดยข้ามบรรทัดแรก (metadata header)
    # ใช้บรรทัดที่สอง (ซึ่งตอนนี้เป็นบรรทัดแรกหลัง skip) เป็น Header จริงๆ
    # และกำหนด dtype ของคอลัมน์ตัวเลขให้เป็น string เพื่อป้องกัน .0
    encodings_to_try = ['utf-8', 'tis-620', 'cp874', 'latin1', 'iso-8859-1']

    # กำหนดชื่อคอลัมน์ที่เราคาดหวังจากภาพตัวอย่าง
    expected_header_names = ['วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง']

    for encoding in encodings_to_try:
        try:
            # skiprows=1: ข้ามบรรทัดแรกที่เป็น metadata
            # header=0: ใช้บรรทัดแรกหลัง skip (คือบรรทัดที่สองของไฟล์เดิม) เป็น Header
            # dtype: กำหนดให้คอลัมน์ที่คาดว่าจะเป็นตัวเลข ถูกอ่านเป็น string ทันที
            # (เราจะยังไม่รู้ชื่อคอลัมน์จริงที่ Pandas อ่านได้ในตอนนี้ แต่รู้ว่ามันคือคอลัมน์ที่ 1 และ 2)
            # เราจะกำหนด dtype เป็น 'object' (ซึ่งก็คือ string) สำหรับคอลัมน์ที่ 1 และ 2
            df_temp = pd.read_csv(file_path,
                                  encoding=encoding,
                                  skiprows=1,
                                  header=0,
                                  dtype={1: str, 2: str}) # กำหนดให้คอลัมน์ที่ 1 และ 2 เป็น string

            # ตรวจสอบว่ามีจำนวนคอลัมน์ที่เพียงพอและข้อมูลในแถวแรกไม่ว่างเปล่า
            if df_temp.shape[1] >= 3 and pd.notna(df_temp.iloc[0, 0]):
                df = df_temp
                print(f"✅ โหลดไฟล์ด้วย encoding '{encoding}' โดยข้าม 1 บรรทัดและใช้ Header สำเร็จ")
                break
            else:
                print(f"❌ โหลดไฟล์ด้วย encoding '{encoding}' สำเร็จ แต่ข้อมูลดูไม่ถูกต้อง (คอลัมน์ไม่พอ หรือแถวแรกว่าง)")

        except Exception as e:
            # print(f"❌ ไม่สามารถโหลดไฟล์ด้วย encoding '{encoding}': {e}") # ปิด log error ซ้ำๆ
            continue

    if df is None:
        raise Exception("ไม่สามารถโหลดไฟล์ CSV ด้วย encoding ใดๆ ที่ลองได้ หรือไฟล์ไม่มีข้อมูลที่ถูกต้อง")

    # 2. กำหนดชื่อคอลัมน์มาตรฐาน และตรวจสอบจำนวนคอลัมน์
    if len(df.columns) < 3:
        raise ValueError(f"จำนวนคอลัมน์ที่พบ ({len(df.columns)}) ไม่พอสำหรับ วันที่, รางวัลที่ 1, เลข 2 ตัวล่าง (ต้องมีอย่างน้อย 3 คอลัมน์)")

    # ใช้ df.columns[0], df.columns[1], df.columns[2] ซึ่งเป็นชื่อคอลัมน์ที่ Pandas อ่านได้ (แม้จะเป็นอักขระแปลกๆ)
    # แล้วเปลี่ยนชื่อคอลัมน์ให้เป็นชื่อมาตรฐานของเราทันที
    df_selected = df.iloc[:, [0, 1, 2]].copy() # เลือกแค่ 3 คอลัมน์แรก
    df_selected.columns = ['Date_Raw', 'Prize1_Raw', 'Last2Digits_Raw']

    print(f"\n✅ กำหนดให้คอลัมน์ '{df.columns[0]}' เป็น วันที่")
    print(f"✅ กำหนดให้คอลัมน์ '{df.columns[1]}' เป็น รางวัลที่ 1 (6 หลัก)")
    print(f"✅ กำหนดให้คอลัมน์ '{df.columns[2]}' เป็น เลข 2 ตัวล่าง")

    # 3. ลบบรรทัดสุดท้ายที่เป็น footer (ถ้ามี)
    last_row_date_val = str(df_selected.iloc[-1]['Date_Raw']).strip()
    if "artifact" in last_row_date_val.lower():
        print(f"ℹ️ ตรวจพบบรรทัดสุดท้าย ('{last_row_date_val[:50]}...') น่าจะเป็น Footer/Metadata จะลบออก")
        df_selected = df_selected.iloc[:-1].copy().reset_index(drop=True)

    original_df_rows_count = len(df_selected) # นับจำนวนแถวใน df_selected ก่อนทำความสะอาด

    # 4. ทำความสะอาดข้อมูลแต่ละแถว (ปรับปรุงการจัดการ NaN, '-' และเติม 0)
    cleaned_data = []
    seen_ids = set() # สำหรับกรองข้อมูลซ้ำ

    for index, row in df_selected.iterrows():
        try:
            # 4.1 แปลงวันที่ (รองรับหลายรูปแบบและจัดการค่าว่าง)
            date_raw = str(row['Date_Raw']).strip()
            if not date_raw or date_raw.lower() == 'nan' or date_raw == '-':
                continue

            date_obj = None
            date_formats = [
                '%Y/%m/%d', '%Y-%m-%d', '%d/%m/%Y', '%d-%m-%Y',
                '%d/%m/%y', '%d-%m-%y', # DD/MM/YY
                '%d %b %Y', '%d %B %Y', # DD MonYYYY (e.g., 1 ม.ค. 2565)
            ]

            # การแปลงปี พ.ศ. ให้เป็น ค.ศ. (ถ้าพบ)
            if re.search(r'\b25\d{2}\b', date_raw):
                date_raw_parts = date_raw.split()
                for i, part in enumerate(date_raw_parts):
                    if part.isdigit() and len(part) == 4 and part.startswith('25'):
                        date_raw_parts[i] = str(int(part) - 543)
                date_raw = ' '.join(date_raw_parts)

            for fmt in date_formats:
                try:
                    date_obj = datetime.strptime(date_raw, fmt)
                    break
                except ValueError:
                    continue

            if date_obj is None:
                print(f"⚠️ แถวที่ {index} (ข้อมูลดิบวันที่ '{row['Date_Raw']}'): รูปแบบวันที่ไม่ถูกต้องหรือไม่รองรับ ข้ามแถวนี้")
                continue

            # 4.2 ทำความสะอาด Prize1_Raw (6 หลัก) และเติม 0
            prize1_raw = str(row['Prize1_Raw']).strip()
            if not prize1_raw or prize1_raw.lower() == 'nan' or prize1_raw == '-':
                continue

            prize1_cleaned = re.sub(r'[^\d]', '', prize1_raw) # ลบอักขระที่ไม่ใช่ตัวเลข

            # *** จุดสำคัญ: เติม 0 ด้านหน้าให้ครบ 6 หลัก ***
            prize1_cleaned = prize1_cleaned.zfill(6)

            if len(prize1_cleaned) != 6:
                # ถ้าหลังจาก zfill แล้วยังไม่ 6 หลัก แสดงว่าข้อมูลผิดปกติมาก
                print(f"⚠️ แถวที่ {index} (Prize1_Raw '{row['Prize1_Raw']}'): ตัวเลขรางวัลที่ 1 ไม่ครบ 6 หลักหลังทำความสะอาดและเติม 0 ({len(prize1_cleaned)} หลัก) ข้ามแถวนี้")
                continue

            digits = [int(d) for d in prize1_cleaned]

            # 4.3 ทำความสะอาด Last2Digits_Raw (2 หลัก) และเติม 0
            last2_cleaned = None
            last2_raw = str(row['Last2Digits_Raw']).strip()

            if not last2_raw or last2_raw.lower() == 'nan' or last2_raw == '-':
                last2_cleaned = prize1_cleaned[-2:] # ใช้ 2 หลักสุดท้ายของ Prize1_Raw หากข้อมูลว่าง
            else:
                last2_cleaned = re.sub(r'[^\d]', '', last2_raw)

            # *** จุดสำคัญ: เติม 0 ด้านหน้าให้ครบ 2 หลัก ***
            last2_cleaned = last2_cleaned.zfill(2)

            if len(last2_cleaned) != 2:
                # ถ้าหลังจาก zfill แล้วยังไม่ 2 หลัก แสดงว่าข้อมูลผิดปกติมาก
                print(f"⚠️ แถวที่ {index} (Last2Digits_Raw '{row.get('Last2Digits_Raw', 'N/A')}'): ตัวเลข 2 ตัวล่างไม่ครบ 2 หลักหลังทำความสะอาดและเติม 0 ข้ามแถวนี้")
                continue

            # กรองข้อมูลซ้ำโดยใช้ วันที่ + Prize1 เป็น ID
            row_id = f"{date_obj.isoformat()}_{prize1_cleaned}"
            if row_id in seen_ids:
                print(f"⚠️ แถวที่ {index}: พบข้อมูลซ้ำ (วันที่: {date_obj.isoformat()}, Prize1: {prize1_cleaned}) ข้ามแถวนี้")
                continue
            seen_ids.add(row_id)

            cleaned_data.append({
                'id': row_id,
                'date': date_obj,
                'dateStr': date_obj.strftime('%Y-%m-%d'),
                'prize1': prize1_cleaned,
                'last2': last2_cleaned,
                'digits': digits,
                'sum': sum(digits),
                'evenCount': sum(1 for d in digits if d % 2 == 0),
                'oddCount': sum(1 for d in digits if d % 2 == 1),
                'last2Int': int(last2_cleaned)
            })

        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดที่ไม่คาดคิดในแถวที่ {index}: {e}. ข้ามแถวนี้")
            continue

    # 5. จัดเรียงข้อมูลตามวันที่
    processed_data = sorted(cleaned_data, key=lambda x: x['date'])

    if not processed_data:
        raise Exception("ไม่พบข้อมูลที่ถูกต้องหลังจากทำความสะอาด โปรดตรวจสอบรูปแบบข้อมูลในไฟล์ CSV ของคุณ")

    print(f"\n✅ การเตรียมและทำความสะอาดข้อมูลสำเร็จ: ประมวลผลได้ {len(processed_data)} รายการ (จาก {original_df_rows_count} รายการในไฟล์ที่เลือกมา)")
    print(f"ช่วงข้อมูล: ตั้งแต่ {processed_data[0]['dateStr']} ถึง {processed_data[-1]['dateStr']}")

    _processed_data_cell1 = processed_data
    _original_df_rows_cell1 = original_df_rows_count

except FileNotFoundError:
    print(f"❌ ข้อผิดพลาด: ไม่พบไฟล์ '{file_path}' โปรดตรวจสอบชื่อและที่ตั้งของไฟล์")
except ValueError as ve:
    print(f"❌ ข้อผิดพลาดข้อมูล: {ve}")
except Exception as e:
    print(f"❌ เกิดข้อผิดพลาดทั่วไป: {e}")



--- เซลล์ที่ 1: การเตรียมและทำความสะอาดข้อมูล ---
🔄 กำลังโหลดและทำความสะอาดข้อมูลจาก 'ไฟล์พร้อมใช้งาน.csv'...
✅ โหลดไฟล์ด้วย encoding 'utf-8' โดยข้าม 1 บรรทัดและใช้ Header สำเร็จ

✅ กำหนดให้คอลัมน์ '…' เป็น วันที่
✅ กำหนดให้คอลัมน์ '…' เป็น รางวัลที่ 1 (6 หลัก)
✅ กำหนดให้คอลัมน์ 'ñ…' เป็น เลข 2 ตัวล่าง
ℹ️ ตรวจพบบรรทัดสุดท้าย ('</artifact identifier="lottery_csv" type="text/pla...') น่าจะเป็น Footer/Metadata จะลบออก

✅ การเตรียมและทำความสะอาดข้อมูลสำเร็จ: ประมวลผลได้ 560 รายการ (จาก 560 รายการในไฟล์ที่เลือกมา)
ช่วงข้อมูล: ตั้งแต่ 2002-01-16 ถึง 2025-06-16


In [None]:
# --- ส่วนเพิ่มเติม: แสดงตัวอย่างข้อมูลที่ประมวลผลแล้ว ---
if '_processed_data_cell1' in locals() and _processed_data_cell1:
    print("\n--- ตัวอย่างข้อมูลที่ประมวลผลแล้ว (6 แถวแรก) ---")
    for i, item in enumerate(_processed_data_cell1[:6]):
        print(f"  {item['dateStr']} | Prize1: {item['prize1']} | Last2: {item['last2']}")

    if len(_processed_data_cell1) > 6:
        print("\n--- ตัวอย่างข้อมูลที่ประมวลผลแล้ว (6 แถวสุดท้าย) ---")
        for i, item in enumerate(_processed_data_cell1[-6:]):
            print(f"  {item['dateStr']} | Prize1: {item['prize1']} | Last2: {item['last2']}")
    else:
        print("\nℹ️ มีข้อมูลน้อยกว่า 6 แถว จึงแสดงแค่ทั้งหมดที่มีไปแล้ว")




--- ตัวอย่างข้อมูลที่ประมวลผลแล้ว (6 แถวแรก) ---
  2002-01-16 | Prize1: 709670 | Last2: 14
  2002-02-01 | Prize1: 633270 | Last2: 40
  2002-02-16 | Prize1: 330853 | Last2: 92
  2002-03-01 | Prize1: 805590 | Last2: 55
  2002-03-16 | Prize1: 659152 | Last2: 04
  2002-04-01 | Prize1: 990543 | Last2: 57

--- ตัวอย่างข้อมูลที่ประมวลผลแล้ว (6 แถวสุดท้าย) ---
  2025-04-01 | Prize1: 669687 | Last2: 36
  2025-04-16 | Prize1: 266227 | Last2: 85
  2025-05-02 | Prize1: 213388 | Last2: 06
  2025-05-16 | Prize1: 251309 | Last2: 87
  2025-06-01 | Prize1: 559352 | Last2: 20
  2025-06-16 | Prize1: 507392 | Last2: 06


In [None]:
import pandas as pd
import numpy as np
import re
from datetime import datetime, timedelta

# --- เซลล์ที่ 2: ระบบหลัก ---

print("\n--- เซลล์ที่ 2: ระบบหลัก (Feature Engineering และ Model Logic) ---")

# ตรวจสอบว่าข้อมูลจากเซลล์ที่ 1 มีอยู่
if '_processed_data_cell1' not in globals() or not _processed_data_cell1:
    print("❌ ไม่พบข้อมูลที่ประมวลผลแล้วจากเซลล์ที่ 1 หรือข้อมูลว่างเปล่า โปรดรันเซลล์ที่ 1 ก่อน")
else:
    processed_data = _processed_data_cell1

    def calculate_std_dev(arr):
        """Calculates the standard deviation of a list of numbers."""
        if len(arr) < 2:
            return 0.0
        mean = np.mean(arr)
        return np.std(arr, ddof=1) # ddof=1 for sample standard deviation

    def extract_sequential_features(data):
        """
        สร้าง Features เชิงลำดับจากข้อมูลที่ประมวลผลแล้ว
        """
        print("🔄 กำลังสร้าง Sequential Features...")
        features_list = []

        for index, item in enumerate(data):
            features = item.copy() # คัดลอกข้อมูลปัจจุบัน

            # Dynamic lookback window: ใช้ประวัติสูงสุด 10 งวด
            lookback = min(10, index)
            history = data[max(0, index - lookback) : index]

            if history: # ตรวจสอบว่ามีประวัติ
                # Features สำหรับเลข 6 หลัก (Position-specific)
                for pos in range(6):
                    # ตรวจสอบว่า 'digits' มีอยู่และมีขนาดพอ
                    if 'digits' in item and len(item['digits']) > pos:
                        pos_history = [h['digits'][pos] for h in history if 'digits' in h and len(h['digits']) > pos]

                        features[f'pos{pos}_lastValue'] = pos_history[-1] if pos_history else 0
                        features[f'pos{pos}_trend'] = (pos_history[-1] - pos_history[-2]) if len(pos_history) > 1 else 0
                        features[f'pos{pos}_stdDev'] = calculate_std_dev(pos_history) if pos_history else 0.0
                    else:
                        # กำหนดค่าเริ่มต้นถ้า 'digits' ไม่มีอยู่หรือขนาดไม่พอ
                        features[f'pos{pos}_lastValue'] = 0
                        features[f'pos{pos}_trend'] = 0
                        features[f'pos{pos}_stdDev'] = 0.0

                # Features ทั่วไป
                features['avgSum'] = np.mean([h['sum'] for h in history]) if history else 0
                features['avgEvenCount'] = np.mean([h['evenCount'] for h in history]) if history else 0

                # Features สำหรับเลข 2 ตัวล่าง
                last2_history = [h['last2Int'] for h in history if 'last2Int' in h]
                features['last2_lastValue'] = last2_history[-1] if last2_history else 0
                features['last2_frequency_in_history'] = last2_history.count(item['last2Int']) if 'last2Int' in item else 0

                # คำนวณ 'gap' ของเลข 2 ตัวล่างอย่างละเอียด
                last_same_index = -1
                if 'last2Int' in item:
                    for i in range(index - 1, -1, -1):
                        if data[i]['last2Int'] == item['last2Int']:
                            last_same_index = i
                            break
                features['last2_gap'] = index - last_same_index if last_same_index >= 0 else index + 1

            else: # ถ้าไม่มีประวัติ (เช่น แถวแรกๆ)
                for pos in range(6):
                    features[f'pos{pos}_lastValue'] = 0
                    features[f'pos{pos}_trend'] = 0
                    features[f'pos{pos}_stdDev'] = 0.0
                features['avgSum'] = 0
                features['avgEvenCount'] = 0
                features['last2_lastValue'] = 0
                features['last2_frequency_in_history'] = 0
                features['last2_gap'] = index + 1

            # Features ตามวันที่
            features['dayOfWeek'] = item['date'].weekday() if 'date' in item else 0
            features['month'] = item['date'].month if 'date' in item else 0
            features['dayOfMonth'] = item['date'].day if 'date' in item else 0
            features['weekOfYear'] = item['date'].isocalendar()[1] if 'date' in item and hasattr(item['date'], 'isocalendar') else 0

            features_list.append(features)

        print(f"✅ สร้าง Sequential Features สำเร็จ: {len(features_list)} รายการ")
        return features_list

    def predict_last2_digits(features):
        """
        ทำนายเลข 2 ตัวล่างโดยใช้โมเดลเฉพาะทาง
        """
        print("🎯 กำลังทำนายเลข 2 ตัวล่าง (Specialized Model - Second Draft)...")

        if len(features) < 10:
            print("⚠️ ข้อมูลไม่เพียงพอสำหรับการทำนายเลข 2 ตัวล่าง (ต้องการอย่างน้อย 10 งวด)")
            return {'predictions': [], 'analysis': {}}

        pair_freq = {} # ความถี่
        pair_last_seen = {} # งวดล่าสุดที่เห็น
        pair_gaps_history = {} # ประวัติช่วงห่างแต่ละครั้ง

        # กรองเฉพาะข้อมูลที่มี 'last2' และ 'last2Int'
        valid_features = [f for f in features if 'last2' in f and 'last2Int' in f]

        # ✅ แก้ไขตรงนี้: ย้ายการกำหนด recent_features ขึ้นมาก่อนการใช้งาน
        recent_features = [f for f in valid_features[-20:] if 'last2Int' in f]

        for index, item in enumerate(valid_features):
            pair = item['last2']
            pair_freq[pair] = pair_freq.get(pair, 0) + 1

            if pair in pair_last_seen:
                gap = index - pair_last_seen[pair]
                pair_gaps_history.setdefault(pair, []).append(gap)
            pair_last_seen[pair] = index

        # ถ้าไม่มีข้อมูลคู่เลย
        if not pair_freq:
            return {'predictions': [], 'analysis': {'totalUniquePairs': 0}}


        # คำนวณค่าเฉลี่ยช่วงห่าง (periodicity)
        avg_gaps = {pair: np.mean(gaps) if gaps else len(valid_features) + 1 for pair, gaps in pair_gaps_history.items()}

        sorted_pairs_info = []
        for pair, freq in pair_freq.items():
            current_gap = len(valid_features) - pair_last_seen[pair] - 1 # จำนวนงวดที่ยังไม่ออก
            expected_gap = avg_gaps.get(pair, len(valid_features) + 1)

            # ✅ NEW: Ensemble Scoring
            score = 0.0
            score += freq * 0.3 # น้ำหนักความถี่
            score += (100 - min(100, current_gap)) * 0.3 # น้ำหนักความใหม่ (ยิ่งห่างน้อย ยิ่งคะแนนสูง)

            # Due factor (ถ้าห่างเกินค่าเฉลี่ยมาก อาจจะ "ถึงเวลา" ออก)
            if current_gap > expected_gap * 1.5:
                score += (current_gap - expected_gap) * 0.2
            elif current_gap < expected_gap * 0.5: # ถ้าออกบ่อยเกินไป อาจจะลดความน่าสนใจ
                score -= (expected_gap - current_gap) * 0.1

            # Pattern strength (เช่น เลขหลักเดียวซ้ำ หรือมีแนวโน้มคล้ายงวดก่อนหน้า)
            # ✅ แก้ไขตรงนี้: ตรวจสอบ recent_features ก่อนใช้งาน
            if recent_features:
                last_draw_last2 = recent_features[-1]['last2']
                if pair[0] == last_draw_last2[0] or pair[1] == last_draw_last2[1]:
                    score += 5 # เพิ่มคะแนนเล็กน้อยหากมีตัวเลขหลักเดียวตรงกับงวดล่าสุด

            sorted_pairs_info.append({
                'pair': pair,
                'freq': freq,
                'currentGap': current_gap,
                'expectedGap': expected_gap,
                'score': max(0, min(100, score)) # จำกัดคะแนน 0-100
            })

        sorted_pairs_info.sort(key=lambda x: x['score'], reverse=True)

        # sum_mod_10_trend และ even_odd_trend ใช้ recent_features ที่ถูกกำหนดไว้แล้ว
        sum_mod_10_trend = [f['last2Int'] % 10 for f in recent_features][-5:] if recent_features else []
        even_odd_trend = [f['last2Int'] % 2 for f in recent_features][-5:] if recent_features else []

        # ✅ NEW: Anomaly detection for cold numbers
        all_pairs = [str(i).zfill(2) for i in range(100)]
        cold_pairs = []
        for p in all_pairs:
            if p not in pair_freq: # ไม่เคยออกเลย
                cold_pairs.append(p)
            elif p in pair_last_seen:
                # ถ้าไม่ออกมานานมาก และความถี่ต่ำ
                current_gap = len(valid_features) - pair_last_seen[p] - 1 # ใช้ valid_features สำหรับ current_gap
                if current_gap > len(valid_features) * 0.7 and pair_freq[p] < 3: # 70% ของประวัติ และออกน้อยกว่า 3 ครั้ง
                    cold_pairs.append(p)

        top_predictions = [
            {
                'value': p['pair'],
                'confidence': min(0.99, p['score'] / 100),
                'reason': f"คะแนน: {p['score']:.1f}, ความถี่: {p['freq']}, ห่าง: {p['currentGap']} งวด, คาดหวัง: {p['expectedGap']:.1f} งวด"
            } for p in sorted_pairs_info[:10]
        ]

        return {
            'predictions': top_predictions,
            'analysis': {
                'totalUniquePairs': len(pair_freq),
                'mostFrequent': sorted_pairs_info[0] if sorted_pairs_info else None,
                'longestCurrentGap': max([p['currentGap'] for p in sorted_pairs_info]) if sorted_pairs_info else 0,
                'patterns': {
                    'sumMod10Trend': sum_mod_10_trend,
                    'evenOddTrend': even_odd_trend
                },
                'coldPairs': cold_pairs[:5] # แสดง 5 คู่ที่เย็นที่สุด
            }
        }

    def predict_sequential_6_digits(features):
        """
        ทำนายเลข 6 หลักโดยใช้โมเดล Sequential (Markov Chain like)
        """
        print("🎯 กำลังทำนายเลข 6 หลักแบบ Sequential (Second Draft)...")

        if len(features) < 30:
            print("⚠️ ข้อมูลไม่เพียงพอสำหรับการทำนายเลข 6 หลัก (ต้องการอย่างน้อย 30 งวด)")
            return {'predictions': [], 'positionAnalysis': []}

        recent_draws = [f for f in features[-30:] if 'digits' in f and len(f['digits']) == 6] # กรองข้อมูลให้แน่ใจว่ามี 'digits' และครบ 6 หลัก
        if not recent_draws:
            print("⚠️ ไม่พบข้อมูล 6 หลักที่ถูกต้องใน 30 งวดล่าสุด")
            return {'predictions': [], 'positionAnalysis': []}

        position_predictions = []

        for pos in range(6): # สำหรับแต่ละตำแหน่ง (0 ถึง 5)
            pos_values = [d['digits'][pos] for d in recent_draws if len(d['digits']) > pos]
            if not pos_values: # ถ้าไม่มีข้อมูลสำหรับตำแหน่งนี้เลย
                position_predictions.append({
                    'position': pos,
                    'candidates': [{'digit': i, 'weightedCount': 0, 'probability': 0.1} for i in range(10)], # Default candidates
                    'bestGuess': 0
                })
                continue

            transitions = {} # from_digit -> to_digit : weighted_count

            # สร้าง Transition Matrix แบบถ่วงน้ำหนักตามความใหม่
            for i in range(1, len(pos_values)):
                from_digit = pos_values[i-1]
                to_digit = pos_values[i]
                weight = i / len(pos_values) # งวดล่าสุดมีน้ำหนักมากกว่า
                key = (from_digit, to_digit)
                transitions[key] = transitions.get(key, 0) + weight

            current_value = pos_values[-1] # เลขล่าสุดในตำแหน่งนี้

            candidate_next_digits = {} # digit : weighted_prob
            total_weight_from_current = 0

            # หาเลขถัดไปที่เป็นไปได้จากเลขปัจจุบัน
            for (from_d, to_d), weighted_count in transitions.items():
                if from_d == current_value:
                    candidate_next_digits[to_d] = candidate_next_digits.get(to_d, 0) + weighted_count
                    total_weight_from_current += weighted_count

            next_candidates_for_pos = []
            if total_weight_from_current > 0:
                for digit, weighted_sum in candidate_next_digits.items():
                    next_candidates_for_pos.append({
                        'digit': digit,
                        'weightedCount': weighted_sum,
                        'probability': weighted_sum / total_weight_from_current
                    })

            # Fallback: หากไม่มี transition จากเลขปัจจุบัน หรือ confidence ต่ำมาก
            if not next_candidates_for_pos or next_candidates_for_pos[0]['probability'] < 0.1:
                digit_freq = {}
                for i, d in enumerate(pos_values):
                    weight = (i + 1) / len(pos_values) # ให้งวดล่าสุดมีน้ำหนักมากขึ้น
                    digit_freq[d] = digit_freq.get(d, 0) + weight

                total_freq_weight = sum(digit_freq.values())
                if total_freq_weight > 0:
                    next_candidates_for_pos = sorted(
                        [{'digit': d, 'weightedCount': w, 'probability': w / total_freq_weight}
                         for d, w in digit_freq.items()],
                        key=lambda x: x['weightedCount'], reverse=True
                    )[:5] # เลือก 5 ตัวที่ความถี่ถ่วงน้ำหนักสูงสุด
                else: # ถ้าไม่มีข้อมูลเลย
                    next_candidates_for_pos = [{'digit': i, 'weightedCount': 0, 'probability': 0.1} for i in range(10)]

            next_candidates_for_pos.sort(key=lambda x: x['probability'], reverse=True)
            position_predictions.append({
                'position': pos,
                'candidates': next_candidates_for_pos[:3], # เอา 3 ตัวเลือกที่ดีที่สุด
                'bestGuess': next_candidates_for_pos[0]['digit'] if next_candidates_for_pos else 0
            })

        # รวมการทำนายแต่ละตำแหน่งเข้าเป็นชุดตัวเลข 6 หลัก
        sequences = []

        def generate_combinations(arrays, current_combination=[], index=0, current_confidence=1.0):
            if len(sequences) >= 10: # จำกัดจำนวนชุดทำนายเพื่อไม่ให้ล้นเกินไป
                return

            if index == len(arrays):
                sequence_str = "".join(map(str, current_combination))

                real_breakdown = []
                for i, digit in enumerate(current_combination):
                    candidate_info = next(
                        (c for c in arrays[i]['candidates'] if c['digit'] == digit),
                        {'probability': 0.1} # Default confidence if not found
                    )
                    real_breakdown.append({
                        'position': i,
                        'digit': digit,
                        'confidence': candidate_info['probability']
                    })

                sequences.append({
                    'sequence': sequence_str,
                    'confidence': current_confidence,
                    'breakdown': real_breakdown
                })
                return

            # เลือก candidates จากแต่ละตำแหน่ง โดยพิจารณา top 2 หรือ 3 ตัวแรก
            candidates_for_this_pos = arrays[index]['candidates'][:2] # เลือก 2 ตัวเลือกที่ดีที่สุด
            if len(candidates_for_this_pos) < 2 and len(arrays[index]['candidates']) > 2:
                candidates_for_this_pos.append(arrays[index]['candidates'][2]) # ถ้ามีตัวเลือกที่ 3 ก็เอามาพิจารณา

            for candidate in candidates_for_this_pos:
                generate_combinations(
                    arrays,
                    current_combination + [candidate['digit']],
                    index + 1,
                    current_confidence * candidate['probability']
                )

        # กรอง position_predictions ที่มี candidates จริงๆ ก่อนส่งให้ generate_combinations
        valid_pos_preds = [p for p in position_predictions if p['candidates']]
        if len(valid_pos_preds) == 6: # ต้องมี 6 ตำแหน่งครบถ้วน
            generate_combinations(valid_pos_preds)
        else:
            print("⚠️ ไม่สามารถสร้างชุดทำนาย 6 หลักได้ครบถ้วน เนื่องจากบางตำแหน่งไม่มีผู้สมัครที่เหมาะสม")

        # จัดเรียงชุดทำนายตามความมั่นใจ
        sequences.sort(key=lambda x: x['confidence'], reverse=True)

        return {
            'predictions': sequences[:5], # เลือก 5 ชุดที่มั่นใจที่สุด
            'positionAnalysis': position_predictions
        }

    # สร้าง features จากข้อมูลที่ประมวลผลแล้ว
    features = extract_sequential_features(processed_data)

    # ทำนายผล
    sequential_6_digit_predictions = predict_sequential_6_digits(features)
    specialized_2_digit_predictions = predict_last2_digits(features)

    # เก็บผลลัพธ์ไว้ในตัวแปร global เพื่อส่งต่อ
    _predictions_cell2 = {
        'sixDigit': sequential_6_digit_predictions,
        'twoDigit': specialized_2_digit_predictions
    }
    _analysis_results_cell2 = {
        'totalRecords': len(processed_data),
        'originalRecords': len(processed_data), # ใช้ len(processed_data) ที่ผ่านการทำความสะอาดแล้ว
        'dataRange': {
            'from': processed_data[0]['dateStr'],
            'to': processed_data[-1]['dateStr']
        },
        'qualityScore': (len(processed_data) / len(processed_data)) * 100, # ควรจะเป็น 100% ถ้า processed_data ถูกต้อง
        'improvements': [
            "✅ กรองข้อมูลที่ซ้ำกัน",
            "✅ เติม 0 และตรวจสอบความถูกต้องของข้อมูล (6 หลัก, 2 หลัก)",
            "✅ Standardize Date Format",
            "🔄 สร้าง Feature ทางสถิติเพิ่มเติม (ค่าส่วนเบี่ยงเบนมาตรฐาน)",
            "🔄 ปรับปรุง Lookback Window ให้ยืดหยุ่นขึ้น",
            "🔄 ใช้การถ่วงน้ำหนักตามความใหม่ของข้อมูลใน Transition Probabilities",
            "🔄 ระบบ Ensemble Scoring สำหรับเลข 2 ตัวล่าง",
            "🔄 การทำนายเลข 6 หลักพยายามสร้างชุดที่หลากหลายมากขึ้น"
        ]
    }
    print("✅ ระบบหลักทำงานเสร็จสิ้น พร้อมประมวลผลและแสดงผลในเซลล์ถัดไป")




--- เซลล์ที่ 2: ระบบหลัก (Feature Engineering และ Model Logic) ---
🔄 กำลังสร้าง Sequential Features...
✅ สร้าง Sequential Features สำเร็จ: 560 รายการ
🎯 กำลังทำนายเลข 6 หลักแบบ Sequential (Second Draft)...
🎯 กำลังทำนายเลข 2 ตัวล่าง (Specialized Model - Second Draft)...
✅ ระบบหลักทำงานเสร็จสิ้น พร้อมประมวลผลและแสดงผลในเซลล์ถัดไป


In [None]:
# --- เซลล์ที่ 3: ตรวจสอบข้อมูลส่งต่อและ Feature Analysis ---

print("--- เซลล์ที่ 3: ตรวจสอบข้อมูลส่งต่อและ Feature Analysis ---")

# ตรวจสอบว่าตัวแปรที่เก็บผลลัพธ์จากเซลล์ที่ 2 มีอยู่
if '_predictions_cell2' not in globals() or '_analysis_results_cell2' not in globals():
    print("❌ ไม่พบผลลัพธ์การทำนายหรือข้อมูลวิเคราะห์จากเซลล์ที่ 2 โปรดรันเซลล์ที่ 2 ก่อน")
else:
    predictions = _predictions_cell2
    analysis_results = _analysis_results_cell2
    features_data = features # ตัวแปร 'features' ถูกสร้างและเก็บไว้ในขอบเขต global ของเซลล์ 2

    print("\n--- 📊 สรุปข้อมูลวิเคราะห์จากเซลล์ที่ 2 ---")
    print(f"จำนวนข้อมูลที่ประมวลผลแล้ว: {analysis_results['totalRecords']} รายการ")
    print(f"ช่วงข้อมูล: ตั้งแต่ {analysis_results['dataRange']['from']} ถึง {analysis_results['dataRange']['to']}")
    print(f"คุณภาพข้อมูลที่ใช้: {analysis_results['qualityScore']:.2f}%")
    print("การปรับปรุงที่ทำในเซลล์ 1 และ 2:")
    for imp in analysis_results['improvements']:
        print(f"  {imp}")

    print("\n--- 🔍 การตรวจสอบ Features (จาก 'features' ตัวแปร) ---")
    print(f"จำนวน Features ที่สร้าง: {len(features_data)} รายการ")
    print("\nตัวอย่าง Feature ของงวดล่าสุด (เพื่อทำนายงวดถัดไป):")
    if features_data:
        last_feature_set = features_data[-1]
        # แสดงเฉพาะ Features ที่น่าสนใจและเป็นตัวเลข
        print("  Features สำหรับเลข 6 หลัก:")
        for pos in range(6):
            print(f"    pos{pos}_lastValue: {last_feature_set.get(f'pos{pos}_lastValue', 'N/A')}")
            print(f"    pos{pos}_trend: {last_feature_set.get(f'pos{pos}_trend', 'N/A')}")
            print(f"    pos{pos}_stdDev: {last_feature_set.get(f'pos{pos}_stdDev', 'N/A'):.2f}")
        print("  Features ทั่วไป:")
        print(f"    avgSum: {last_feature_set.get('avgSum', 'N/A'):.2f}")
        print(f"    avgEvenCount: {last_feature_set.get('avgEvenCount', 'N/A'):.2f}")
        print("  Features สำหรับเลข 2 ตัวล่าง:")
        print(f"    last2_lastValue: {last_feature_set.get('last2_lastValue', 'N/A')}")
        print(f"    last2_frequency_in_history: {last_feature_set.get('last2_frequency_in_history', 'N/A')}")
        print(f"    last2_gap: {last_feature_set.get('last2_gap', 'N/A')}")
        print("  Features ตามวันที่:")
        print(f"    dayOfWeek: {last_feature_set.get('dayOfWeek', 'N/A')}")
        print(f"    month: {last_feature_set.get('month', 'N/A')}")
        print(f"    dayOfMonth: {last_feature_set.get('dayOfMonth', 'N/A')}")
        print(f"    weekOfYear: {last_feature_set.get('weekOfYear', 'N/A')}")
    else:
        print("  ไม่มี Features ให้แสดง (ข้อมูลอาจไม่เพียงพอ)")

    print("\n--- 📈 ผลลัพธ์การทำนายที่ส่งต่อ (จาก '_predictions_cell2') ---")

    print("\n--- 🔢 เลข 6 หลัก (จาก predict_sequential_6_digits) ---")
    if predictions['sixDigit']['predictions']:
        for i, pred in enumerate(predictions['sixDigit']['predictions']):
            print(f"ชุดทำนายที่ {i+1}: **{pred['sequence']}**")
            print(f"  ความเชื่อมั่น: {pred['confidence']:.1%}")
            print("  รายละเอียดแต่ละหลัก:")
            for detail in pred['breakdown']:
                print(f"    ตำแหน่ง {detail['position']+1}: เลข {detail['digit']} (ความเชื่อมั่น: {detail['confidence']:.0%})")

        print("\n--- การวิเคราะห์แต่ละตำแหน่ง (Position Analysis) ---")
        for pos_analysis in predictions['sixDigit']['positionAnalysis']:
            print(f"ตำแหน่งที่ {pos_analysis['position']+1} (Best Guess: {pos_analysis['bestGuess']}):")
            for cand in pos_analysis['candidates']:
                print(f"  - เลข {cand['digit']} (ความน่าจะเป็น: {cand['probability']:.2%})")
    else:
        print("  ไม่มีการทำนายเลข 6 หลัก (อาจมีข้อมูลไม่เพียงพอ)")

    print("\n--- ⚡ เลข 2 ตัวล่าง (จาก predict_last2_digits) ---")
    if predictions['twoDigit']['predictions']:
        print("🔥 Top Predictions:")
        for i, pred in enumerate(predictions['twoDigit']['predictions']):
            print(f"  {i+1}. **{pred['value']}** - ความเชื่อมั่น: {pred['confidence']:.1%} ({pred['reason']})")

        print("\n📊 Pattern Analysis:")
        analysis_2d = predictions['twoDigit']['analysis']
        print(f"  🎯 คู่ที่ไม่ซ้ำที่พบ: {analysis_2d['totalUniquePairs']} คู่")
        if analysis_2d['mostFrequent']:
            print(f"  🔥 คู่ที่น่าสนใจสุด (จากคะแนน): {analysis_2d['mostFrequent']['pair']} (คะแนน: {analysis_2d['mostFrequent']['score']:.1f})")
        print(f"  ⏰ ช่วงห่างปัจจุบันสูงสุด: {analysis_2d['longestCurrentGap']} งวด")
        print(f"  Pattern Trends (ล่าสุด 5 งวด):")
        print(f"    Sum Mod 10: {' → '.join(map(str, analysis_2d['patterns']['sumMod10Trend']))}")
        print(f"    Even/Odd: {' → '.join(['คี่' if x == 1 else 'คู่' for x in analysis_2d['patterns']['evenOddTrend']])}")
        print(f"  🥶 คู่ที่ 'เย็น' หรือไม่ออกมานาน: {', '.join(analysis_2d['coldPairs'])}")
    else:
        print("  ไม่มีการทำนายเลข 2 ตัวล่าง (อาจมีข้อมูลไม่เพียงพอ)")

    print("\n--- ตรวจสอบข้อมูลเสร็จสิ้น ---")



--- เซลล์ที่ 3: ตรวจสอบข้อมูลส่งต่อและ Feature Analysis ---

--- 📊 สรุปข้อมูลวิเคราะห์จากเซลล์ที่ 2 ---
จำนวนข้อมูลที่ประมวลผลแล้ว: 560 รายการ
ช่วงข้อมูล: ตั้งแต่ 2002-01-16 ถึง 2025-06-16
คุณภาพข้อมูลที่ใช้: 100.00%
การปรับปรุงที่ทำในเซลล์ 1 และ 2:
  ✅ กรองข้อมูลที่ซ้ำกัน
  ✅ เติม 0 และตรวจสอบความถูกต้องของข้อมูล (6 หลัก, 2 หลัก)
  ✅ Standardize Date Format
  🔄 สร้าง Feature ทางสถิติเพิ่มเติม (ค่าส่วนเบี่ยงเบนมาตรฐาน)
  🔄 ปรับปรุง Lookback Window ให้ยืดหยุ่นขึ้น
  🔄 ใช้การถ่วงน้ำหนักตามความใหม่ของข้อมูลใน Transition Probabilities
  🔄 ระบบ Ensemble Scoring สำหรับเลข 2 ตัวล่าง
  🔄 การทำนายเลข 6 หลักพยายามสร้างชุดที่หลากหลายมากขึ้น

--- 🔍 การตรวจสอบ Features (จาก 'features' ตัวแปร) ---
จำนวน Features ที่สร้าง: 560 รายการ

ตัวอย่าง Feature ของงวดล่าสุด (เพื่อทำนายงวดถัดไป):
  Features สำหรับเลข 6 หลัก:
    pos0_lastValue: 5
    pos0_trend: 3
    pos0_stdDev: 2.54
    pos1_lastValue: 5
    pos1_trend: 0
    pos1_stdDev: 2.25
    pos2_lastValue: 9
    pos2_trend: 8
    pos2_stdDev: 2.59
   

In [None]:
# --- เซลล์ที่ 3: การประมวลผลและคำนวณเพื่อคาดการณ์ ---

print("\n--- เซลล์ที่ 3: การประมวลผลและคำนวณเพื่อคาดการณ์ ---")

# ตรวจสอบว่าผลลัพธ์จากเซลล์ที่ 2 มีอยู่
if '_predictions_cell2' not in globals() or '_analysis_results_cell2' not in globals():
    print("❌ ไม่พบผลลัพธ์การทำนายหรือผลการวิเคราะห์จากเซลล์ที่ 2 โปรดรันเซลล์ที่ 2 ก่อน")
else:
    predictions = _predictions_cell2
    analysis_results = _analysis_results_cell2

    print("\n--- ผลการวิเคราะห์ข้อมูล ---")
    print(f"📊 จำนวนข้อมูลที่อัปโหลด: {analysis_results['originalRecords']} รายการ")
    print(f"✨ จำนวนข้อมูลที่ประมวลผลสำเร็จ: {analysis_results['totalRecords']} รายการ")
    print(f"📅 ช่วงข้อมูล: ตั้งแต่ {analysis_results['dataRange']['from']} ถึง {analysis_results['dataRange']['to']}")
    print(f"✅ คุณภาพข้อมูล (หลังล้าง): {analysis_results['qualityScore']:.1f}%")
    print("\n--- การปรับปรุงที่ทำแล้ว ---")
    for imp in analysis_results['improvements']:
        print(f"  {imp}")

    print("\n\n--- 🎯 การทำนายเลข 6 หลัก (Sequential Model) ---")
    if predictions['sixDigit']['predictions']:
        for i, pred in enumerate(predictions['sixDigit']['predictions']):
            print(f"\nชุดทำนายที่ {i+1}: **{pred['sequence']}**")
            print(f"  ความเชื่อมั่น: {(pred['confidence'] * 100):.1f}%")
            print("  รายละเอียดแต่ละหลัก:")
            for pos_detail in pred['breakdown']:
                print(f"    ตำแหน่ง {pos_detail['position']+1}: เลข {pos_detail['digit']} (ความเชื่อมั่น: {(pos_detail['confidence'] * 100):.0f}%)")
    else:
        print("⚠️ ไม่สามารถสร้างชุดทำนาย 6 หลักได้ โปรดตรวจสอบว่ามีข้อมูลเพียงพอ (อย่างน้อย 30 งวด) และถูกต้อง")

    print("\n\n--- ⚡ การทำนายเลข 2 ตัวล่าง (Specialized Model) ---")
    if predictions['twoDigit']['predictions']:
        print("\n🔥 Top Predictions:")
        for i, pred in enumerate(predictions['twoDigit']['predictions'][:5]): # แสดง 5 อันดับแรก
            print(f"  {i+1}. **{pred['value']}** - ความเชื่อมั่น: {(pred['confidence'] * 100):.1f}% ({pred['reason']})")

        print("\n📊 Pattern Analysis:")
        analysis = predictions['twoDigit']['analysis']
        print(f"  🎯 คู่ที่ไม่ซ้ำที่พบ: {analysis['totalUniquePairs']} คู่")
        if analysis['mostFrequent']:
            print(f"  🔥 คู่ที่น่าสนใจสุด (จากคะแนน): {analysis['mostFrequent']['pair']} (คะแนน: {analysis['mostFrequent']['score']:.1f})")
        print(f"  ⏰ ช่วงห่างปัจจุบันสูงสุด: {analysis['longestCurrentGap']} งวด")
        print(f"  Pattern Trends (ล่าสุด 5 งวด):")
        print(f"    Sum Mod 10: {' → '.join(map(str, analysis['patterns']['sumMod10Trend']))}")
        even_odd_map = {0: 'คู่', 1: 'คี่'}
        print(f"    Even/Odd: {' → '.join([even_odd_map.get(x, '?') for x in analysis['patterns']['evenOddTrend']])}")

        if analysis['coldPairs']:
            print(f"  🥶 คู่ที่ 'เย็น' หรือไม่ออกมานาน: {', '.join(analysis['coldPairs'])}")
        else:
            print("  ไม่พบคู่ที่ 'เย็น' เป็นพิเศษในตอนนี้")

    else:
        print("⚠️ ไม่สามารถสร้างชุดทำนายเลข 2 ตัวล่างได้ โปรดตรวจสอบว่ามีข้อมูลเพียงพอ (อย่างน้อย 10 งวด) และถูกต้อง")

    print("\n--- การประมวลผลและคาดการณ์เสร็จสิ้น ---")




--- เซลล์ที่ 3: การประมวลผลและคำนวณเพื่อคาดการณ์ ---

--- ผลการวิเคราะห์ข้อมูล ---
📊 จำนวนข้อมูลที่อัปโหลด: 560 รายการ
✨ จำนวนข้อมูลที่ประมวลผลสำเร็จ: 560 รายการ
📅 ช่วงข้อมูล: ตั้งแต่ 2002-01-16 ถึง 2025-06-16
✅ คุณภาพข้อมูล (หลังล้าง): 100.0%

--- การปรับปรุงที่ทำแล้ว ---
  ✅ กรองข้อมูลที่ซ้ำกัน
  ✅ เติม 0 และตรวจสอบความถูกต้องของข้อมูล (6 หลัก, 2 หลัก)
  ✅ Standardize Date Format
  🔄 สร้าง Feature ทางสถิติเพิ่มเติม (ค่าส่วนเบี่ยงเบนมาตรฐาน)
  🔄 ปรับปรุง Lookback Window ให้ยืดหยุ่นขึ้น
  🔄 ใช้การถ่วงน้ำหนักตามความใหม่ของข้อมูลใน Transition Probabilities
  🔄 ระบบ Ensemble Scoring สำหรับเลข 2 ตัวล่าง
  🔄 การทำนายเลข 6 หลักพยายามสร้างชุดที่หลากหลายมากขึ้น


--- 🎯 การทำนายเลข 6 หลัก (Sequential Model) ---

ชุดทำนายที่ 1: **557302**
  ความเชื่อมั่น: 0.1%
  รายละเอียดแต่ละหลัก:
    ตำแหน่ง 1: เลข 5 (ความเชื่อมั่น: 45%)
    ตำแหน่ง 2: เลข 5 (ความเชื่อมั่น: 22%)
    ตำแหน่ง 3: เลข 7 (ความเชื่อมั่น: 32%)
    ตำแหน่ง 4: เลข 3 (ความเชื่อมั่น: 31%)
    ตำแหน่ง 5: เลข 0 (ความเชื่อมั่น: 20%)
    ต