<a href="https://colab.research.google.com/github/treekeaw1/-mana-bento-web/blob/main/Untitled.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
from datetime import datetime
from io import StringIO, BytesIO
from google.colab import files # Library for file upload button in Google Colab
from sklearn.model_selection import train_test_split # For splitting data into training and test sets
from sklearn.ensemble import RandomForestClassifier # Our chosen ML model
from sklearn.metrics import accuracy_score # To evaluate model performance
import numpy as np # For numerical operations, especially with probabilities

class LotteryPatternAnalyzer:
    # Modified: Added window_size to init, default to 6
    def __init__(self, window_size=6):
        self.data = []
        self.analysis_results = []
        self.summary = None
        self.ml_models = {} # Dictionary to store trained ML models for each digit position
        self.window_size = window_size # New attribute to store the historical window size

        # Mapping for detailed position descriptions in a combined 8-digit string (left to right)
        # This mapping assumes the combined string is 'two_digit' (indices 0-1) + 'six_digit' (indices 2-7)
        self.combined_digit_positions = {
            0: 'เลข 2 ตัวล่าง (หลักสิบ)',
            1: 'เลข 2 ตัวล่าง (หลักหน่วย)',
            2: 'รางวัลที่ 1 (หลักแสน)',
            3: 'รางวัลที่ 1 (หลักหมื่น)',
            4: 'รางวัลที่ 1 (หลักพัน)',
            5: 'รางวัลที่ 1 (หลักร้อย)',
            6: 'รางวัลที่ 1 (หลักสิบ)',
            7: 'รางวัลที่ 1 (หลักหน่วย)'
        }

    def load_data_from_file(self):
        """
        Allows the user to select a CSV file, loads the data, and performs cleaning.
        - Displays a button for file selection.
        - Skips the first row (if it's empty or not actual CSV data).
        - Validates and pads numbers with leading zeros.
        - Converts dates to datetime objects.
        - Sorts data from oldest to newest for chronological analysis.
        """
        print("📊 กรุณาคลิกปุ่มด้านล่างเพื่อเลือกไฟล์ CSV สำหรับวิเคราะห์ (เช่น 'ตารางเปล่า 21.csv')")

        # Display the file upload button in Google Colab
        uploaded = files.upload() # นี่คือฟังก์ชันที่เปิดหน้าต่างให้อัปโหลดไฟล์

        if not uploaded:
            print("❗ ไม่มีการเลือกไฟล์ โปรดเลือกไฟล์ใหม่เพื่อดำเนินการ")
            return False

        # Get the filename and binary content of the uploaded file
        # files.upload() typically returns a dictionary with one entry if a single file is selected
        filepath = list(uploaded.keys())[0] # ดึงชื่อไฟล์ที่อัปโหลด
        file_content = uploaded[filepath] # ดึงเนื้อหาไฟล์ออกมา

        print(f"กำลังโหลดและทำความสะอาดข้อมูลจากไฟล์: {filepath}")
        try:
            # Read CSV file, skipping the first row (index 0) and using utf-8-sig encoding for Thai characters
            # header=0 means the first row after skipping is treated as the header
            df = pd.read_csv(BytesIO(file_content), encoding='utf-8-sig', skiprows=[0], header=0)

            # Define mapping for expected Thai column names to standard English names
            thai_col_mapping = {
                'วันที่': 'date',
                'รางวัลที่ 1 (6 หลัก)': 'six_digit',
                'เลข 2 ตัวล่าง': 'two_digit',
                # Add other possible Thai column names here if your file has different variations
            }

            # Rename columns in the DataFrame. Normalize column names in the file first (strip spaces, lowercase)
            # to handle minor variations in spacing or casing.
            normalized_columns_map = {col.strip().lower(): col for col in df.columns}
            rename_dict = {}
            for thai_name, eng_name in thai_col_mapping.items():
                if thai_name.lower() in normalized_columns_map:
                    rename_dict[normalized_columns_map[thai_name.lower()]] = eng_name
            df.rename(columns=rename_dict, inplace=True)

            # Check if all required columns are present after renaming
            required_cols = ['date', 'six_digit', 'two_digit']
            if not all(col in df.columns for col in required_cols):
                missing_cols = [col for col in required_cols if col not in df.columns]
                raise ValueError(f"ไฟล์ CSV ไม่มีคอลัมน์ที่จำเป็น: {', '.join(missing_cols)}. โปรดตรวจสอบว่าไฟล์ของคุณมีคอลัมน์ 'วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง' และชื่อคอลัมน์ถูกต้อง)")

            # Convert 'date' column to datetime objects
            # 'errors=coerce' will turn invalid date formats into NaT (Not a Time)
            df['date'] = pd.to_datetime(df['date'], errors='coerce')
            # Remove rows with NaT in the 'date' column (invalid or incomplete dates)
            df.dropna(subset=['date'], inplace=True)

            # --- Critical fix for handling missing values and float conversion ---
            # 1. Attempt to convert 'six_digit' and 'two_digit' columns to numeric.
            #    Any non-numeric values (including empty strings or 'nan' strings) will become NaN.
            df['six_digit'] = pd.to_numeric(df['six_digit'], errors='coerce')
            df['two_digit'] = pd.to_numeric(df['two_digit'], errors='coerce')

            # 2. Remove rows where 'six_digit' or 'two_digit' are NaN (meaning they were initially empty or invalid numbers).
            df.dropna(subset=['six_digit', 'two_digit'], inplace=True)

            # 3. Convert numbers to integers (to remove .0 decimals), then to strings, and pad with leading zeros.
            df['six_digit'] = df['six_digit'].astype(int).astype(str).str.zfill(6)
            df['two_digit'] = df['two_digit'].astype(int).astype(str).str.zfill(2)
            # --- End of critical fix ---

            # Convert DataFrame to a list of dictionaries, which aligns with the class's internal data structure.
            # Sort data chronologically from oldest to newest (Ascending)
            # This ensures that the analysis proceeds from past results towards the present.
            self.data = df.sort_values(by='date', ascending=True).to_dict('records')
            print(f"✅ โหลดข้อมูลและทำความสะอาดเรียบร้อยแล้ว จำนวน {len(self.data)} แถว")
            return True
        except pd.errors.EmptyDataError:
            print("❌ ไฟล์ CSV ว่างเปล่าหรือไม่มีข้อมูลที่อ่านได้ โปรดตรวจสอบเนื้อหาไฟล์")
            return False
        except ValueError as e:
            print(f"❌ ข้อผิดพลาดในการอ่านหรือประมวลผลไฟล์ CSV: {e}")
            print("โปรดตรวจสอบโครงสร้างไฟล์ CSV ของคุณว่าตรงตามที่ระบุหรือไม่ (เช่น มีคอลัมน์ 'วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง' และชื่อคอลัมน์ถูกต้อง)")
            return False
        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดที่ไม่คาดคิดขณะโหลดไฟล์: {e}")
            return False

    def analyze_flow_pattern(self, data):
        """
        Analyzes the 'Flow Pattern' based on the user's new definition.
        For each 'target row' (the (window_size + 1)th row in a chronological window), it checks
        how its digits are derived/formed from the preceding 'window_size' 'historical rows'.
        It records the 'pattern of occurrence, flow, and arrangement' by detailing
        where each digit of the target row originated from in the historical rows.
        """
        results = []

        # Modified: Loop through the data starting from self.window_size index
        for i in range(self.window_size, len(data)):
            current_target_row = data[i] # This is the "target row" (the outcome to be explained)
            preceding_history_rows = data[i-self.window_size:i] # These are the historical rows

            # Combine the 2-digit lower and 6-digit first prize numbers into a single 8-digit string
            # Example: R1="522630", L2="37" -> combined "37522630"
            # Digits are then processed left-to-right from this combined string for the target row.
            target_digits_combined_lr = current_target_row['two_digit'] + current_target_row['six_digit']

            # Store analysis for each digit of the target row
            digit_flow_analysis = []

            # Iterate through each digit of the current_target_row (8 digits, left to right)
            for target_digit_idx, target_digit_value in enumerate(target_digits_combined_lr):
                sources_in_past_rows = [] # To store details of where this target digit was found
                found_count_for_target_digit = 0 # Count of how many times this specific target digit appeared

                # Check this target_digit_value against all digits in each of the preceding history rows
                for past_row_offset, past_row in enumerate(preceding_history_rows):
                    # Combine digits of the historical row for searching
                    past_row_combined_digits_lr = past_row['two_digit'] + past_row['six_digit']

                    # Iterate through each digit in the current historical row to find matches
                    for past_digit_idx, past_digit_value in enumerate(past_row_combined_digits_lr):
                        if past_digit_value == target_digit_value:
                            found_count_for_target_digit += 1
                            sources_in_past_rows.append({
                                # Modified: Use self.window_size for relative index
                                'source_row_relative_index': self.window_size - past_row_offset, # 1 for immediately preceding, window_size for oldest in window
                                'source_digit_value': past_digit_value,
                                'source_position_desc': self.combined_digit_positions.get(past_digit_idx, f'ตำแหน่งที่ {past_digit_idx+1} (ไม่ระบุ)'),
                                'source_date': past_row['date'].strftime('%Y/%m/%d')
                            })

                digit_flow_analysis.append({
                    'target_digit_value': target_digit_value,
                    'target_position_desc': self.combined_digit_positions.get(target_digit_idx, f'ตำแหน่งที่ {target_digit_idx+1} (ไม่ระบุ)'),
                    'total_found_in_past_rows': found_count_for_target_digit,
                    'sources': sources_in_past_rows # Detailed list of all occurrences
                })

            # Calculate summary metrics for the current target row
            # 'all_target_digits_found_at_least_once': True if each of the 8 target digits was found at least once.
            all_target_digits_found_at_least_once = all(item['total_found_in_past_rows'] > 0 for item in digit_flow_analysis)

            # 'total_occurrences_of_target_digits_from_past': Sum of all times *any* digit from the target row was found.
            total_occurrences_of_target_digits_from_past = sum(item['total_found_in_past_rows'] for item in digit_flow_analysis)

            # 'match_percentage_coverage': Percentage of *distinct* target digits (out of 8) that were found at least once. (Max 100%)
            match_percentage_coverage = (len([item for item in digit_flow_analysis if item['total_found_in_past_rows'] > 0]) / 8) * 100

            # 'match_percentage_total_occurrence': Percentage based on the sum of *all* occurrences (can exceed 100%)
            match_percentage_total_occurrence = (total_occurrences_of_target_digits_from_past / 8) * 100

            results.append({
                'index': i, # Index of the current_target_row in the original (sorted) data
                'date': current_target_row['date'].strftime('%Y/%m/%d'),
                'six_digit': current_target_row['six_digit'],
                'two_digit': current_target_row['two_digit'],
                # Modified: Use generic key for preceding history rows
                'preceding_history_rows': [{'date': r['date'].strftime('%Y/%m/%d'),
                                            'six_digit': r['six_digit'],
                                            'two_digit': r['two_digit']} for r in preceding_history_rows],
                'digit_flow_analysis': digit_flow_analysis, # Detailed flow analysis
                'all_target_digits_found_at_least_once': all_target_digits_found_at_least_once,
                'total_occurrences_of_target_digits_from_past': total_occurrences_of_target_digits_from_past,
                'match_percentage_coverage': match_percentage_coverage,
                'match_percentage_total_occurrence': match_percentage_total_occurrence
            })

        return results

    def calculate_summary(self, results):
        """Calculates overall summary statistics for the analysis results."""
        total_rows = len(results)
        if total_rows == 0: # Prevent division by zero
            return {
                'total_rows': 0, 'perfect_matches_coverage': 0, 'partial_matches_coverage': 0,
                'no_matches_coverage': 0, 'perfect_match_rate_coverage': 0,
                'avg_percentage_coverage': 0, 'min_percentage_coverage': 0, 'max_percentage_coverage': 0,
                'avg_percentage_total_occurrence': 0, 'min_percentage_total_occurrence': 0, 'max_percentage_total_occurrence': 0
            }

        # Summary statistics for Coverage (percentage of distinct digits found)
        perfect_matches_coverage = len([r for r in results if r['all_target_digits_found_at_least_once']])
        partial_matches_coverage = len([r for r in results if not r['all_target_digits_found_at_least_once'] and r['match_percentage_coverage'] > 0])
        no_matches_coverage = len([r for r in results if r['match_percentage_coverage'] == 0])

        percentages_coverage = [r['match_percentage_coverage'] for r in results]
        avg_percentage_coverage = sum(percentages_coverage) / total_rows

        # Summary statistics for Total Occurrence (percentage based on all appearances, can exceed 100%)
        percentages_total_occurrence = [r['match_percentage_total_occurrence'] for r in results]
        avg_percentage_total_occurrence = sum(percentages_total_occurrence) / total_rows

        return {
            'total_rows': total_rows,
            'perfect_matches_coverage': perfect_matches_coverage,
            'partial_matches_coverage': partial_matches_coverage,
            'no_matches_coverage': no_matches_coverage,
            'perfect_match_rate_coverage': (perfect_matches_coverage / total_rows) * 100,
            'avg_percentage_coverage': round(avg_percentage_coverage, 1),
            'min_percentage_coverage': min(percentages_coverage),
            'max_percentage_coverage': max(percentages_coverage),
            'avg_percentage_total_occurrence': round(avg_percentage_total_occurrence, 1),
            'min_percentage_total_occurrence': min(percentages_total_occurrence),
            'max_percentage_total_occurrence': max(percentages_total_occurrence)
        }

    def run_analysis(self):
        """Executes the entire analysis process."""
        print("\n🎯 กำลังวิเคราะห์ Flow Pattern...")
        # Modified: Print window size
        print(f"ใช้ข้อมูลย้อนหลัง {self.window_size} งวดสำหรับการวิเคราะห์ Flow Pattern")
        print("=" * 60)

        if not self.data:
            print("❗ ไม่มีข้อมูลให้วิเคราะห์ โปรดตรวจสอบการโหลดไฟล์")
            return None, None

        self.analysis_results = self.analyze_flow_pattern(self.data)
        print(f"✅ วิเคราะห์ข้อมูลได้ {len(self.analysis_results)} แถว")

        self.summary = self.calculate_summary(self.analysis_results)
        self.display_summary()

        return self.analysis_results, self.summary

    def display_summary(self):
        """Displays the overall summary of the Flow Pattern test."""
        print("\n📊 ผลสรุปการทดสอบ Flow Pattern")
        print("=" * 60)

        if self.summary:
            print(f"จำนวนแถว (งวด) ที่นำมาทดสอบ: {self.summary['total_rows']} แถว")

            print(f"\n--- สรุปความครอบคลุมของหลัก (Percentage of Unique Digits Covered) (จาก {self.window_size} งวดอดีต) ---")
            # Modified: Update print statement to reflect window_size
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบัน (8 หลัก) ครบทุกหลักถูกพบใน {self.window_size} งวดก่อนหน้า: {self.summary['perfect_matches_coverage']} งวด ({self.summary['perfect_match_rate_coverage']:.1f}%)")
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบันถูกพบบางส่วน: {self.summary['partial_matches_coverage']} งวด")
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบันไม่ถูกพบเลย: {self.summary['no_matches_coverage']} งวด")
            print(f"ค่าเฉลี่ยความครอบคลุมของหลัก: {self.summary['avg_percentage_coverage']}%")
            print(f"ความครอบคลุมต่ำสุด: {self.summary['min_percentage_coverage']}%")
            print(f"ความครอบคลุมสูงสุด: {self.summary['max_percentage_coverage']}%")

            print("\n--- สรุปความเข้มข้นของการปรากฏ (Total Occurrence Percentage) ---")
            print("หมายเหตุ: ค่านี้สามารถเกิน 100% ได้ หากตัวเลขมีการปรากฏซ้ำหลายครั้ง")
            print(f"ค่าเฉลี่ยความเข้มข้นการปรากฏ: {self.summary['avg_percentage_total_occurrence']}%")
            print(f"ความเข้มข้นต่ำสุด: {self.summary['min_percentage_total_occurrence']}%")
            print(f"ความเข้มข้นสูงสุด: {self.summary['max_percentage_total_occurrence']}%")

            print("\n🎯 บทสรุปของ Pattern นี้:")
            if self.summary['perfect_match_rate_coverage'] > 50 and self.summary['avg_percentage_total_occurrence'] > 100:
                # Modified: Update print statement to reflect window_size
                print(f"✅ Pattern นี้มีความน่าสนใจสูงมาก! ตัวเลขจาก {self.window_size} งวดอดีตมีแนวโน้มที่จะ 'ไหล' ไปปรากฏในงวดถัดไปสูง และมีความหลากหลายในการจัดเรียง")
            elif self.summary['perfect_match_rate_coverage'] > 20 or self.summary['avg_percentage_total_occurrence'] > 50:
                # Modified: Update print statement to reflect window_size
                print(f"⚠️ Pattern นี้มีความน่าสนใจปานกลาง ตัวเลขจาก {self.window_size} งวดอดีตมีแนวโน้มที่จะ 'ไหล' ไปปรากฏในงวดถัดไป")
            elif self.summary['perfect_match_rate_coverage'] > 0 or self.summary['avg_percentage_total_occurrence'] > 0:
                print("❌ Pattern นี้อาจมีความน่าสนใจต่ำ หรืออาจต้องการการปรับปรุงวิธีการวิเคราะห์เพิ่มเติม")
            else:
                print("❌ ไม่พบ Pattern ที่น่าสนใจเลยในข้อมูลนี้")

    def get_perfect_matches(self):
        """Retrieves all rows (target rows) where the pattern is 100% covered (all 8 distinct digits found)."""
        if not self.analysis_results:
            return []

        perfect_results = [r for r in self.analysis_results if r['all_target_digits_found_at_least_once']]
        return perfect_results

    def export_results_to_csv(self, filename="lottery_analysis_results.csv"):
        """Exports the analysis results to a CSV file."""
        if not self.analysis_results:
            print("❗ ไม่มีข้อมูลสำหรับส่งออก")
            return

        data_for_export = []
        for result in self.analysis_results:
            data_for_export.append({
                'แถวที่ (งวดเป้าหมาย)': result['index'] + 1,
                'วันที่_งวดเป้าหมาย': result['date'],
                'รางวัลที่1_งวดเป้าหมาย': result['six_digit'],
                'เลข2ตัวล่าง_งวดเป้าหมาย': result['two_digit'],
                'ครอบคลุม_Pattern_100%': 'ใช่' if result['all_target_digits_found_at_least_once'] else 'ไม่',
                'เปอร์เซ็นต์_ความครอบคลุม': f"{result['match_percentage_coverage']:.1f}%",
                'เปอร์เซ็นต์_ความเข้มข้นการปรากฏ': f"{result['match_percentage_total_occurrence']:.1f}%",
                'จำนวนครั้งที่พบ_ทั้งหมด_จากอดีต': result['total_occurrences_of_target_digits_from_past'] # Modified for clarity
            })

        df = pd.DataFrame(data_for_export)
        # Use encoding='utf-8-sig' for correct display of Thai characters in spreadsheet programs like Microsoft Excel
        df.to_csv(filename, index=False, encoding='utf-8-sig')
        print(f"✅ ส่งออกผลการวิเคราะห์ไปยังไฟล์ '{filename}' เรียบร้อยแล้ว")

    def extract_flow_matrix(self):
        """
        Extracts and summarizes the detailed flow patterns into a Pandas DataFrame (Flow Matrix).
        This matrix shows how often specific target digits (at specific positions)
        originate from specific source digits (at specific positions) within the preceding 'window_size' rows.
        The aggregation is by (Target Digit, Target Position, Source Digit, Source Position, Source Row Relative Index).
        """
        if not self.analysis_results:
            print("❗ ไม่มีผลการวิเคราะห์ให้สร้าง Flow Matrix")
            return pd.DataFrame()

        flow_data_list = []
        for result in self.analysis_results:
            for flow_analysis_item in result['digit_flow_analysis']:
                target_digit = flow_analysis_item['target_digit_value']
                target_pos_desc = flow_analysis_item['target_position_desc'] # Use full description

                # If the target digit was found in past rows
                if flow_analysis_item['sources']:
                    for source in flow_analysis_item['sources']:
                        flow_data_list.append({
                            'Target_Date': result['date'], # Keep date for context
                            'Target_Prize1': result['six_digit'],
                            'Target_Last2': result['two_digit'],
                            'Target_Digit': target_digit,
                            'Target_Position': target_pos_desc, # Use description
                            'Source_Digit': source['source_digit_value'],
                            'Source_Position': source['source_position_desc'], # Use description
                            'Source_Row_Relative_Index': source['source_row_relative_index'], # 1 = immediately preceding, window_size = oldest
                            'Source_Date': source['source_date'], # Keep source date for context
                            'Occurrences': 1 # Each entry represents one occurrence
                        })
                else:
                    # If target digit was not found, still record it with 'N/A' sources
                    flow_data_list.append({
                        'Target_Date': result['date'],
                        'Target_Prize1': result['six_digit'],
                        'Target_Last2': result['two_digit'],
                        'Target_Digit': target_digit,
                        'Target_Position': target_pos_desc,
                        'Source_Digit': 'N/A',
                        'Source_Position': 'N/A',
                        'Source_Row_Relative_Index': 0, # Use 0 or some indicator for 'not found'
                        'Source_Date': 'N/A',
                        'Occurrences': 0
                    })

        flow_df = pd.DataFrame(flow_data_list)

        if flow_df.empty:
            print("❗ Flow Matrix ว่างเปล่า อาจเกิดจากไม่มีข้อมูลหรือไม่มี Pattern ที่ตรงกัน")
            return pd.DataFrame()

        # Group by the desired dimensions and sum occurrences
        # This creates the summary matrix
        flow_matrix = flow_df.groupby([
            'Target_Digit', 'Target_Position',
            'Source_Digit', 'Source_Position',
            'Source_Row_Relative_Index'
        ])['Occurrences'].sum().reset_index()

        # Sort the results for better readability
        flow_matrix.sort_values(by=['Target_Digit', 'Target_Position', 'Occurrences'], ascending=[True, True, False], inplace=True)

        print("✅ สร้าง Flow Matrix สำเร็จแล้ว")
        print("💡 ตารางนี้แสดงความสัมพันธ์ระหว่างตัวเลขและตำแหน่งที่ปรากฏในงวดปัจจุบันกับตัวเลขและตำแหน่งที่มาจากงวดก่อนหน้า")
        return flow_matrix

    # --- Machine Learning Section (from previous code context) ---
    def prepare_features_for_ml(self, data_subset):
        """
        Prepares features for the ML model.
        For each target digit position (0-7 in combined 8-digit string),
        creates features based on the presence of digits in the preceding 'window_size' rows.
        The target for each model is the digit at that specific position in the next draw.
        """
        features_list = []
        labels_prize1 = [] # Labels for each of the 6 digits of prize 1
        labels_last2 = []  # Labels for each of the 2 digits of last 2

        # Start from window_size to ensure enough history for features and a target
        for i in range(self.window_size, len(data_subset)):
            current_row = data_subset[i]
            historical_rows = data_subset[i - self.window_size : i]

            # Features for the current target row will be based on the digits in historical_rows
            feature_vector = {}

            # Populate feature_vector: count occurrences of each digit (0-9)
            # at each of the 8 combined positions, across the window_size historical rows.
            for digit_val in range(10): # For digits 0-9
                for pos_idx in range(8): # For positions 0-7
                    feature_vector[f'digit_{digit_val}_at_pos_{pos_idx}'] = 0

            # Also add features for general digit frequency and position frequency across the window
            for digit_val in range(10):
                feature_vector[f'digit_freq_{digit_val}_window'] = 0
            for pos_idx in range(8):
                feature_vector[f'pos_freq_window_{pos_idx}'] = 0


            for row_offset, h_row in enumerate(historical_rows):
                combined_h_digits = h_row['two_digit'] + h_row['six_digit']
                for pos_idx, digit_val_str in enumerate(combined_h_digits):
                    digit_val = int(digit_val_str)
                    feature_vector[f'digit_{digit_val}_at_pos_{pos_idx}'] += 1 # Count specific digit at specific position
                    feature_vector[f'digit_freq_{digit_val}_window'] += 1 # General digit frequency
                    feature_vector[f'pos_freq_window_{pos_idx}'] += 1 # General position frequency


            features_list.append(feature_vector)

            # Get target labels (the actual digits for the current row)
            current_combined_digits = current_row['two_digit'] + current_row['six_digit']
            labels_last2.append([int(current_combined_digits[0]), int(current_combined_digits[1])]) # D0, D1 for last 2
            labels_prize1.append([int(current_combined_digits[2]), int(current_combined_digits[3]),
                                  int(current_combined_digits[4]), int(current_combined_digits[5]),
                                  int(current_combined_digits[6]), int(current_combined_digits[7])]) # D2-D7 for prize 1

        features_df = pd.DataFrame(features_list)
        # Ensure all possible feature columns exist even if some didn't appear in a specific run
        all_possible_features = []
        for digit_val in range(10):
            for pos_idx in range(8):
                all_possible_features.append(f'digit_{digit_val}_at_pos_{pos_idx}')
        for digit_val in range(10):
            all_possible_features.append(f'digit_freq_{digit_val}_window')
        for pos_idx in range(8):
            all_possible_features.append(f'pos_freq_window_{pos_idx}')

        for col in all_possible_features:
            if col not in features_df.columns:
                features_df[col] = 0 # Add missing columns with 0

        # Ensure order of columns for consistency in training/prediction
        features_df = features_df[all_possible_features]

        return features_df, np.array(labels_last2), np.array(labels_prize1)


    def train_ml_models(self, test_size_ratio=0.2):
        """
        Trains a separate Random Forest Classifier model for each of the 8 digit positions.
        Each model predicts the digit (0-9) for its respective position.
        """
        print(f"\n🧠 กำลังฝึกฝนโมเดล Machine Learning สำหรับแต่ละตำแหน่ง...")

        if len(self.data) < self.window_size + 10: # Need enough data for features + some for training
            print(f"❌ ข้อมูลไม่เพียงพอสำหรับการฝึกฝนโมเดล ML (ต้องมีอย่างน้อย {self.window_size + 10} รายการ)")
            self.ml_models = {}
            return

        features_df, labels_last2, labels_prize1 = self.prepare_features_for_ml(self.data)

        if features_df.empty:
            print("❌ ไม่สามารถสร้าง Features สำหรับ ML ได้ ตรวจสอบข้อมูลและการเตรียม Features")
            self.ml_models = {}
            return

        all_labels_combined = np.concatenate((labels_last2, labels_prize1), axis=1) # Combine all 8 labels

        # Train a model for each of the 8 positions
        for pos_idx in range(8):
            print(f"   - กำลังฝึกโมเดลสำหรับ {self.combined_digit_positions[pos_idx]} (ตำแหน่งที่ {pos_idx+1})...")
            y_pos = all_labels_combined[:, pos_idx] # Labels for the current position

            # Check if there's enough diversity in labels for stratification
            if len(np.unique(y_pos)) < 2:
                print(f"     ⚠️ ข้อมูลสำหรับ {self.combined_digit_positions[pos_idx]} มีความหลากหลายน้อยเกินไป (มีคลาสเดียว). จะไม่ใช้ stratify")
                X_train, X_test, y_train, y_test = train_test_split(features_df, y_pos, test_size=test_size_ratio, random_state=42)
            else:
                X_train, X_test, y_train, y_test = train_test_split(features_df, y_pos, test_size=test_size_ratio, random_state=42, stratify=y_pos)

            if len(X_train) == 0 or len(X_test) == 0:
                print(f"     ❌ การแบ่งข้อมูลสำหรับ {self.combined_digit_positions[pos_idx]} ล้มเหลว. โปรดตรวจสอบขนาดข้อมูลและ test_size_ratio")
                continue

            model = RandomForestClassifier(n_estimators=100, random_state=42, class_weight='balanced') # Use class_weight for imbalanced classes
            try:
                model.fit(X_train, y_train)
                y_pred = model.predict(X_test)
                accuracy = accuracy_score(y_test, y_pred)
                print(f"     ✅ ฝึกฝนสำเร็จ. ความแม่นยำ: {accuracy:.2%}")
                self.ml_models[pos_idx] = model
            except Exception as e:
                print(f"     ❌ เกิดข้อผิดพลาดในการฝึกฝนโมเดลสำหรับ {self.combined_digit_positions[pos_idx]}: {e}")
                self.ml_models[pos_idx] = None

        print("✅ ฝึกฝนโมเดล ML เสร็จสิ้น.")


    def predict_next_draw_ml(self, num_predictions=5):
        """
        Uses the trained ML models to predict the digits for the next draw.
        Returns the top 'num_predictions' sets of 8 digits and their probabilities.
        """
        if not self.ml_models or any(model is None for model in self.ml_models.values()):
            print("❗ ยังไม่ได้ฝึกฝนโมเดล ML หรือมีโมเดลที่ไม่สมบูรณ์. กรุณาเรียก train_ml_models() ก่อน.")
            return []

        print(f"\n🤖 กำลังทำนายเลขงวดถัดไปด้วยโมเดล ML (แสดง {num_predictions} ชุด):")

        # Prepare features for the very last set of historical data
        # We need the last 'window_size' rows from self.data
        if len(self.data) < self.window_size:
            print(f"❌ ข้อมูลย้อนหลังไม่เพียงพอ ({len(self.data)} < {self.window_size}) สำหรับทำนายด้วย ML.")
            return []

        # Create a dummy list with only the last 'window_size' rows to pass to prepare_features_for_ml
        # The prepare_features_for_ml expects a list of dicts, and it internally handles the shifting.
        # To get the features for the *next* draw, we feed it the *last* window_size rows as if they are
        # the "history" leading to a "target" row that we don't have yet.
        # So we need to feed it self.data[-(self.window_size):] as the 'historical_rows'
        # The method returns features_df, labels_last2, labels_prize1 where features_df is based on
        # the *current* window predicting the *next*.

        # A simpler way to get the feature vector for the next prediction:
        # Create a temporary DataFrame from the last 'self.window_size' rows
        # The 'prepare_features_for_ml' expects a list, so we make a dummy structure
        # to get one prediction row.

        # Create a single 'fake' row for features_list to represent the input for the next prediction
        # The target row index in prepare_features_for_ml is 'i'. If we want to predict the (len(data))th row,
        # its historical data will be data[len(data) - self.window_size : len(data)]

        # This is a bit tricky with `prepare_features_for_ml` as it's designed for batch processing.
        # Let's adapt it to get features for just the next prediction.

        # The historical data for the *next* draw is the last `self.window_size` rows from `self.data`.
        last_n_rows = self.data[-self.window_size:]

        # Create a dummy target row to satisfy `prepare_features_for_ml`'s structure.
        # Its values don't matter, only its existence to trigger feature creation for the last window.
        dummy_target_row = {
            'date': datetime.now(), # Placeholder date
            'six_digit': '000000', # Placeholder number
            'two_digit': '00'      # Placeholder number
        }

        # Combine last_n_rows with the dummy_target_row to simulate the input for `prepare_features_for_ml`
        # so it generates features for predicting the dummy_target_row (which is our next draw).
        prediction_input_data = last_n_rows + [dummy_target_row]

        # Call prepare_features_for_ml with this specially crafted data
        # It will return features_df, labels_last2, labels_prize1.
        # We are interested in the *last* row of features_df, which corresponds to predicting dummy_target_row.
        X_predict_all, _, _ = self.prepare_features_for_ml(prediction_input_data)

        if X_predict_all.empty:
            print("❌ ไม่สามารถเตรียมข้อมูลสำหรับทำนายได้. ตรวจสอบ prepare_features_for_ml.")
            return []

        X_predict = X_predict_all.iloc[-1:].copy() # Get the feature vector for the next draw prediction

        # Ensure that X_predict has the same columns and order as the training data
        # This is crucial for the model to work correctly.
        # We need the feature names from one of the trained models. Assuming all models trained on same features.
        if self.ml_models and 0 in self.ml_models and self.ml_models[0]:
            trained_features = self.ml_models[0].feature_names_in_
            missing_cols = set(trained_features) - set(X_predict.columns)
            for c in missing_cols:
                X_predict[c] = 0 # Add any missing features with a default value of 0

            # Ensure the order of columns matches the training order
            X_predict = X_predict[trained_features]
        else:
            print("❌ ไม่สามารถดึงรายการ Features ที่ใช้ฝึกฝนโมเดลได้.")
            return []


        # Get probabilities for each position
        position_probabilities = []
        for pos_idx in range(8):
            model = self.ml_models.get(pos_idx)
            if model:
                # Predict probabilities for each digit (0-9)
                proba = model.predict_proba(X_predict)[0]
                # Get digit labels (0, 1, ..., 9)
                classes = model.classes_
                # Map probabilities to digits and sort by probability (descending)
                digit_proba_map = {int(c): p for c, p in zip(classes, proba)}

                # Ensure all 0-9 digits are present, even if probability is 0
                full_digit_proba_map = {d: digit_proba_map.get(d, 0.0) for d in range(10)}

                sorted_digits_with_proba = sorted(full_digit_proba_map.items(), key=lambda item: item[1], reverse=True)
                position_probabilities.append(sorted_digits_with_proba)
            else:
                position_probabilities.append([]) # No model for this position


        # Generate top N combinations
        # This part requires combining predictions from 8 independent models.
        # A simple approach is to take the top N most probable digits for each position
        # and then combine them. This can lead to a very large number of combinations.
        # For simplicity, we can list the top predicted digit for each position,
        # or combine the top few into 'sets'.

        predicted_combinations = []

        # Strategy 1: Top 1 prediction for each position
        top_1_combination = ""
        for pos_idx in range(8):
            if position_probabilities[pos_idx]:
                top_1_combination += str(position_probabilities[pos_idx][0][0])
            else:
                top_1_combination += "?" # Indicate missing prediction

        if len(top_1_combination) == 8 and '?' not in top_1_combination:
            predicted_combinations.append({
                'Combination': top_1_combination,
                'Type': 'Top 1 Probability'
            })

        # Strategy 2: Generate N diverse combinations based on high probabilities
        # This is more complex. For now, let's just list top 3-5 digits for each position.
        print("\n   --- เลขที่แนะนำแต่ละหลัก (ตามความน่าจะเป็นสูงสุด) ---")
        for pos_idx in range(8):
            pos_desc = self.combined_digit_positions[pos_idx]
            top_digits_for_pos = position_probabilities[pos_idx][:5] # Get top 5 for display
            if top_digits_for_pos:
                print(f"   {pos_desc}: " + ", ".join([f"{digit} ({prob:.2%})" for digit, prob in top_digits_for_pos]))
            else:
                print(f"   {pos_desc}: ไม่มีข้อมูลการทำนาย")

        return predicted_combinations


    def main_run(self):
        """
        Main function to run the entire analysis pipeline.
        """
        print("======== 🚀 เริ่มต้นระบบวิเคราะห์ Flow Pattern หวยไทย 🚀 ========")

        # 1. Load Data
        if not self.load_data_from_file():
            print("❗ ไม่สามารถดำเนินการต่อได้เนื่องจากโหลดข้อมูลไม่สำเร็จ.")
            return

        # 2. Run Flow Pattern Analysis
        analysis_results, summary = self.run_analysis()
        if analysis_results is None:
            print("❗ ไม่สามารถดำเนินการต่อได้เนื่องจากวิเคราะห์ Flow Pattern ไม่สำเร็จ.")
            return

        # 3. Export Results (Optional)
        self.export_results_to_csv()

        # 4. Extract and Display Flow Matrix
        flow_matrix_df = self.extract_flow_matrix()
        if not flow_matrix_df.empty:
            print("\n📊 Flow Matrix (ส่วนหัว 10 แถวแรก):")
            print(flow_matrix_df.head(10).to_string()) # Use .to_string() to avoid truncation
            print("\n💡 คุณสามารถบันทึก Flow Matrix นี้เป็น CSV ได้หากต้องการวิเคราะห์เพิ่มเติม")
            flow_matrix_df.to_csv("flow_matrix_summary.csv", index=False, encoding='utf-8-sig')
            print("✅ Flow Matrix ถูกบันทึกไปที่ 'flow_matrix_summary.csv'")

        # 5. Train ML Models
        self.train_ml_models()

        # 6. Predict Next Draw with ML
        self.predict_next_draw_ml(num_predictions=5) # Predict top 5 combinations

        print("\n======== ✅ การวิเคราะห์ Flow Pattern เสร็จสมบูรณ์! ========")

# --- Main execution block ---
if __name__ == "__main__":
    # Create an instance of the analyzer with a specific window size
    # You can change window_size here, e.g., LotteryPatternAnalyzer(window_size=10)
    analyzer = LotteryPatternAnalyzer(window_size=6)
    analyzer.main_run()



📊 กรุณาคลิกปุ่มด้านล่างเพื่อเลือกไฟล์ CSV สำหรับวิเคราะห์ (เช่น 'ตารางเปล่า 21.csv')


Saving ตารางเปล่า 21.csv to ตารางเปล่า 21 (1).csv
กำลังโหลดและทำความสะอาดข้อมูลจากไฟล์: ตารางเปล่า 21 (1).csv
✅ โหลดข้อมูลและทำความสะอาดเรียบร้อยแล้ว จำนวน 559 แถว

🎯 กำลังวิเคราะห์ Flow Pattern...
ใช้ข้อมูลย้อนหลัง 6 งวดสำหรับการวิเคราะห์ Flow Pattern
✅ วิเคราะห์ข้อมูลได้ 553 แถว

📊 ผลสรุปการทดสอบ Flow Pattern
จำนวนแถว (งวด) ที่นำมาทดสอบ: 553 แถว

--- สรุปความครอบคลุมของหลัก (Percentage of Unique Digits Covered) (จาก 6 งวดอดีต) ---
จำนวนงวดที่หลักตัวเลขปัจจุบัน (8 หลัก) ครบทุกหลักถูกพบใน 6 งวดก่อนหน้า: 533 งวด (96.4%)
จำนวนงวดที่หลักตัวเลขปัจจุบันถูกพบบางส่วน: 20 งวด
จำนวนงวดที่หลักตัวเลขปัจจุบันไม่ถูกพบเลย: 0 งวด
ค่าเฉลี่ยความครอบคลุมของหลัก: 99.4%
ความครอบคลุมต่ำสุด: 75.0%
ความครอบคลุมสูงสุด: 100.0%

--- สรุปความเข้มข้นของการปรากฏ (Total Occurrence Percentage) ---
หมายเหตุ: ค่านี้สามารถเกิน 100% ได้ หากตัวเลขมีการปรากฏซ้ำหลายครั้ง
ค่าเฉลี่ยความเข้มข้นการปรากฏ: 477.9%
ความเข้มข้นต่ำสุด: 275.0%
ความเข้มข้นสูงสุด: 762.5%

🎯 บทสรุปของ Pattern นี้:
✅ Pattern นี้มีความน่าสนใจสูงมาก! ตัวเล

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter, defaultdict
import warnings
from scipy.stats import chisquare
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import re # สำหรับ Regular Expressions ในการทำความสะอาดชื่อคอลัมน์

warnings.filterwarnings('ignore')

# ตั้งค่าการแสดงผลภาษาไทย (ตรวจสอบว่ามีการตั้งค่าฟอนต์ที่รองรับภาษาไทยใน Colab หรือไม่)
# ถ้ายังไม่มี, ให้รันโค้ดติดตั้งฟอนต์ไทยก่อน เช่น
# !pip install -U matplotlib
# !apt-get install -y fonts-thai-tlwg
# import matplotlib.font_manager as fm
# fm.fontManager.addfont('/usr/share/fonts/thai-tlwg/THSarabunNew.ttf') # หรือฟอนต์อื่นที่คุณมี
# plt.rcParams['font.family'] = ['TH Sarabun New'] # เปลี่ยนชื่อฟอนต์ตามที่ติดตั้ง
plt.rcParams['font.family'] = ['DejaVu Sans'] # ใช้ Dejavu Sans เป็นค่าเริ่มต้น หรือเปลี่ยนเป็นฟอนต์ไทยที่ติดตั้ง
plt.rcParams['axes.unicode_minus'] = False

class LotteryAnalyzer:
    def __init__(self):
        self.data = None
        self.analysis_results = {}
        self.model = None # สำหรับเก็บโมเดล Machine Learning

    def load_and_clean_data(self, file_path):
        """
        โหลดและทำความสะอาดข้อมูลจากไฟล์ CSV
        โดยจะพยายามจัดการกับชื่อคอลัมน์และ encoding
        """
        print("🔄 กำลังโหลดและทำความสะอาดข้อมูล...")

        # ลองอ่านไฟล์ CSV ด้วย encoding ต่างๆ ที่เป็นไปได้
        try:
            df = pd.read_csv(file_path, encoding='utf-8')
        except UnicodeDecodeError:
            try:
                df = pd.read_csv(file_path, encoding='cp874') # สำหรับภาษาไทย
            except UnicodeDecodeError:
                df = pd.read_csv(file_path, encoding='latin1') # fallback ทั่วไป
        except FileNotFoundError:
            raise FileNotFoundError(f"ไฟล์ไม่พบที่ {file_path}. โปรดตรวจสอบชื่อไฟล์และพาธ.")
        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดที่ไม่คาดคิดในการอ่านไฟล์: {e}")
            raise # ส่ง exception ต่อไป

        print(f"✅ โหลดไฟล์: '{file_path}' สำเร็จแล้ว")

        # --- ทำความสะอาดชื่อคอลัมน์ทั้งหมดก่อนการตรวจสอบ ---
        # ขั้นตอนนี้จะช่วยจัดการกับเว้นวรรคหรืออักขระพิเศษที่มองไม่เห็น
        original_cols = df.columns.tolist()
        cleaned_col_map = {}
        for col in original_cols:
            # ลบเว้นวรรคหน้า/หลัง และเปลี่ยนเว้นวรรคหลายอันให้เป็นอันเดียว
            # นอกจากนี้ ยังถอดอักขระที่ไม่ใช่ตัวอักษรและตัวเลข (ยกเว้นเว้นวรรคที่ยังไม่ถูก strip)
            # ตัวอย่าง: '<artifact identifier="lottery_csv" type="text/plain" title="ตารางเปล่า 20.csv">'
            # จะถูกแปลงเป็น 'artifact identifier lottery_csv type text plain title ตารางเปล่า 20.csv'
            # ซึ่งก็ยังไม่ใช่ชื่อที่ต้องการ

            # ดังนั้น เราจะเน้นที่การทำความสะอาดชื่อคอลัมน์ที่ "คาดหวัง" ว่าจะมีอยู่
            # และตรวจสอบการมีอยู่ของมันอย่างแข็งขัน

            cleaned_col = re.sub(r'\s+', ' ', col).strip() # ลบเว้นวรรคเกินและ trim
            cleaned_col_map[col] = cleaned_col
        df = df.rename(columns=cleaned_col_map)

        print("🔍 ชื่อคอลัมน์ทั้งหมดในไฟล์ (หลังจากทำความสะอาดเบื้องต้น):")
        print(df.columns.tolist())

        # --- ระบุชื่อคอลัมน์ที่ต้องการใช้หลังจากการทำความสะอาด (จากรูปภาพไฟล์ของคุณ) ---
        # ชื่อเหล่านี้คือชื่อที่ **คาดหวัง** ว่าจะเห็นในไฟล์ CSV จริงๆ
        expected_date_col = 'วันที่'
        expected_prize1_col = 'รางวัลที่ 1 (6 หลัก)'
        expected_last2_col = 'เลข 2 ตัวล่าง'

        # ตรวจสอบและหาชื่อคอลัมน์ที่ตรงกันที่สุด (กรณีมีเว้นวรรค/อักขระพิเศษ)
        # เราจะใช้วิธีวนลูปหาชื่อคอลัมน์ที่ "มีคำหลัก" ที่เราต้องการ
        # และใช้ชื่อนั้นแทน

        # ค้นหาคอลัมน์ "วันที่"
        found_date_col = None
        for col_name in df.columns.tolist():
            if expected_date_col in col_name: # ตรวจสอบว่า "วันที่" อยู่ในชื่อคอลัมน์หรือไม่
                found_date_col = col_name
                break
        if not found_date_col:
            raise KeyError(f"❌ ไม่พบคอลัมน์ '{expected_date_col}' ในไฟล์ของคุณ. ชื่อคอลัมน์ที่มีอยู่: {df.columns.tolist()}")

        # ค้นหาคอลัมน์ "รางวัลที่ 1 (6 หลัก)"
        found_prize1_col = None
        for col_name in df.columns.tolist():
            if expected_prize1_col in col_name: # ตรวจสอบว่า "รางวัลที่ 1 (6 หลัก)" อยู่ในชื่อคอลัมน์หรือไม่
                found_prize1_col = col_name
                break
        if not found_prize1_col:
            raise KeyError(f"❌ ไม่พบคอลัมน์ '{expected_prize1_col}' ในไฟล์ของคุณ. ชื่อคอลัมน์ที่มีอยู่: {df.columns.tolist()}")

        # ค้นหาคอลัมน์ "เลข 2 ตัวล่าง"
        found_last2_col = None
        for col_name in df.columns.tolist():
            if expected_last2_col in col_name: # ตรวจสอบว่า "เลข 2 ตัวล่าง" อยู่ในชื่อคอลัมน์หรือไม่
                found_last2_col = col_name
                break
        if not found_last2_col:
            raise KeyError(f"❌ ไม่พบคอลัมน์ '{expected_last2_col}' ในไฟล์ของคุณ. ชื่อคอลัมน์ที่มีอยู่: {df.columns.tolist()}")

        print(f"✅ ตรวจพบคอลัมน์ที่สำคัญแล้ว: วันที่='{found_date_col}', รางวัลที่ 1='{found_prize1_col}', เลข 2 ตัวล่าง='{found_last2_col}'")

        # ลบแถวที่ว่างเปล่าในคอลัมน์หลักที่เราค้นพบ
        df = df.dropna(subset=[found_date_col, found_prize1_col, found_last2_col])

        # เปลี่ยนชื่อคอลัมน์ให้เป็นมาตรฐานภายในโค้ด
        df = df.rename(columns={
            found_date_col: 'วันที่',
            found_prize1_col: 'รางวัลที่ 1 (6 หลัก)',
            found_last2_col: 'เลข 2 ตัวล่าง'
        })

        # ทำความสะอาดคอลัมน์วันที่
        df['วันที่'] = pd.to_datetime(df['วันที่'], format='%Y/%m/%d', errors='coerce')
        df = df.dropna(subset=['วันที่']) # ดรอปอีกครั้งสำหรับวันที่ที่แปลงไม่ได้

        # ทำความสะอาดเลขรางวัล - เติม 0 หน้าให้ครบ 6 หลัก
        df['รางวัลที่ 1 (6 หลัก)'] = df['รางวัลที่ 1 (6 หลัก)'].astype(str).str.zfill(6)
        df = df[df['รางวัลที่ 1 (6 หลัก)'].str.match(r'^\d{6}$')]

        # ทำความสะอาดเลข 2 ตัวล่าง - เติม 0 หน้าให้ครบ 2 หลัก
        df['เลข 2 ตัวล่าง'] = df['เลข 2 ตัวล่าง'].astype(str).str.zfill(2)
        df = df[df['เลข 2 ตัวล่าง'].str.match(r'^\d{2}$')]

        # เรียงลำดับตามวันที่ (ใหม่ไปเก่า)
        df = df.sort_values('วันที่', ascending=False).reset_index(drop=True)

        self.data = df
        print(f"✅ โหลดและทำความสะอาดข้อมูลสำเร็จ: {len(df)} รายการ")
        print(f"📅 ช่วงข้อมูล: {df['วันที่'].min().strftime('%d/%m/%Y')} - {df['วันที่'].max().strftime('%d/%m/%Y')}")

        return df

    def analyze_frequency(self):
        """
        วิเคราะห์ความถี่ของตัวเลข
        """
        print("\n🔍 กำลังวิเคราะห์ความถี่ตัวเลข...")

        # วิเคราะห์ความถี่ตัวเลข 0-9 จากรางวัลที่ 1
        digit_freq = Counter()
        for number in self.data['รางวัลที่ 1 (6 หลัก)']:
            for digit in str(number):
                digit_freq[digit] += 1

        # วิเคราะห์ความถี่เลข 2 ตัวล่าง
        last2_freq = Counter(self.data['เลข 2 ตัวล่าง'])

        # วิเคราะห์ตำแหน่งเลข
        position_analysis = {}
        for pos in range(6):
            position_analysis[f'ตำแหน่งที่ {pos+1}'] = Counter()

        for number in self.data['รางวัลที่ 1 (6 หลัก)']:
            for i, digit in enumerate(str(number)):
                position_analysis[f'ตำแหน่งที่ {i+1}'][digit] += 1

        # เพิ่มการคำนวณ Digital Root
        self.data['digital_root_prize1'] = self.data['รางวัลที่ 1 (6 หลัก)'].apply(lambda x: self._calculate_digital_root(int(x)))
        self.data['digital_root_last2'] = self.data['เลข 2 ตัวล่าง'].apply(lambda x: self._calculate_digital_root(int(x)))

        digital_root_prize1_freq = Counter(self.data['digital_root_prize1'])
        digital_root_last2_freq = Counter(self.data['digital_root_last2'])


        self.analysis_results = {
            'digit_frequency': dict(digit_freq),
            'last2_frequency': dict(last2_freq),
            'position_analysis': position_analysis,
            'total_records': len(self.data),
            'digital_root_prize1_freq': dict(digital_root_prize1_freq), # เพิ่ม Digital Root Freq
            'digital_root_last2_freq': dict(digital_root_last2_freq)
        }

        print("✅ วิเคราะห์ความถี่เสร็จสิ้น")
        return self.analysis_results

    def _calculate_digital_root(self, n):
        """คำนวณ Digital Root ของตัวเลข"""
        return (n - 1) % 9 + 1 if n > 0 else 0

    def _is_fibonacci(self, n):
        """ตรวจสอบว่าเป็นเลข Fibonacci หรือไม่ (เบื้องต้น)"""
        # ฟังก์ชันนี้ยังไม่ได้ใช้ในโค้ดหลัก แต่เตรียมไว้สำหรับการขยายผล
        if n < 0: return False
        phi = 0.5 + 0.5 * np.sqrt(5.0)
        a = phi * n
        return n == 0 or abs(round(a) - a) < 1.0 / n # เช็คค่าใกล้เคียง

    def display_analysis(self):
        """
        แสดงผลการวิเคราะห์
        """
        print("\n" + "="*60)
        print("📊 ผลการวิเคราะห์ข้อมูลหวยไทย")
        print("="*60)

        # สถิติรวม
        print(f"\n📈 สถิติรวม:")
        print(f"   ข้อมูลทั้งหมด: {self.analysis_results['total_records']:,} รายการ")
        # เปลี่ยนการคำนวณช่วงเวลาเป็น "ปี" เพื่อให้สอดคล้องกับ UI เดิม
        date_range_days = (self.data['วันที่'].max() - self.data['วันที่'].min()).days
        date_range_years = date_range_days / 365.25
        print(f"   ช่วงเวลา: {date_range_years:.1f} ปี ({date_range_days:,} วัน)")
        print(f"   เลข 2 ตัวล่างไม่ซ้ำ: {len(self.analysis_results['last2_frequency'])} รูปแบบ")
        # ค่าเฉลี่ย/เลข: จำนวนครั้งทั้งหมดที่เลข 0-9 ออก / จำนวนเลข 10 ตัว
        total_digit_occurrences = sum(self.analysis_results['digit_frequency'].values())
        avg_occurrence_per_digit = total_digit_occurrences / 10
        print(f"   ค่าเฉลี่ย/เลข (0-9): {avg_occurrence_per_digit:.0f} ครั้ง")


        # ความถี่ตัวเลข
        print(f"\n🔥 ความถี่ตัวเลข (0-9):")
        digit_freq = self.analysis_results['digit_frequency']
        sorted_digits = sorted(digit_freq.items(), key=lambda x: x[1], reverse=True)

        for digit, freq in sorted_digits:
            percentage = (freq / sum(digit_freq.values())) * 100
            print(f"   เลข {digit}: {freq:,} ครั้ง ({percentage:.1f}%)")

        # TOP 10 เลข 2 ตัวล่าง
        print(f"\n🎯 TOP 10 เลข 2 ตัวล่าง:")
        last2_freq = self.analysis_results['last2_frequency']
        sorted_last2 = sorted(last2_freq.items(), key=lambda x: x[1], reverse=True)[:10]

        for i, (number, freq) in enumerate(sorted_last2, 1):
            percentage = (freq / sum(last2_freq.values())) * 100
            print(f"   {i:2d}. เลข {number}: {freq} ครั้ง ({percentage:.1f}%)")

        # เพิ่มการแสดงผล Digital Root
        print(f"\n🔢 ความถี่ Digital Root รางวัลที่ 1:")
        digital_root_prize1_freq = self.analysis_results['digital_root_prize1_freq']
        sorted_dr_prize1 = sorted(digital_root_prize1_freq.items(), key=lambda x: x[0])
        for dr, freq in sorted_dr_prize1:
            print(f"   DR {dr}: {freq:,} ครั้ง")

        print(f"\n🔢 ความถี่ Digital Root เลข 2 ตัวล่าง:")
        digital_root_last2_freq = self.analysis_results['digital_root_last2_freq']
        sorted_dr_last2 = sorted(digital_root_last2_freq.items(), key=lambda x: x[0])
        for dr, freq in sorted_dr_last2:
            print(f"   DR {dr}: {freq:,} ครั้ง")

    def create_visualizations(self):
        """
        สร้างกราฟแสดงผล
        """
        print("\n📊 กำลังสร้างกราฟแสดงผล...")

        # ตั้งค่าขนาดกราฟ
        fig, axes = plt.subplots(2, 3, figsize=(18, 12)) # เปลี่ยนเป็น 2x3 เพื่อเพิ่มกราฟ Digital Root
        fig.suptitle('การวิเคราะห์ข้อมูลหวยไทย', fontsize=16, fontweight='bold')

        # กราฟ 1: ความถี่ตัวเลข 0-9
        digit_freq = self.analysis_results['digit_frequency']
        digits = list(map(str, range(10))) # ให้เป็น str เพื่อให้ตรงกับ key ใน Counter
        frequencies = [digit_freq.get(d, 0) for d in digits]

        axes[0, 0].bar(digits, frequencies, color='skyblue', edgecolor='navy')
        axes[0, 0].set_title('📈 ความถี่ตัวเลข 0-9', fontweight='bold')
        axes[0, 0].set_xlabel('ตัวเลข')
        axes[0, 0].set_ylabel('ความถี่')
        axes[0, 0].grid(axis='y', alpha=0.3)

        # กราฟ 2: TOP 15 เลข 2 ตัวล่าง
        last2_freq = self.analysis_results['last2_frequency']
        top_last2 = sorted(last2_freq.items(), key=lambda x: x[1], reverse=True)[:15]
        numbers, freqs = zip(*top_last2)

        axes[0, 1].bar(range(len(numbers)), freqs, color='lightgreen', edgecolor='darkgreen')
        axes[0, 1].set_title('🎯 TOP 15 เลข 2 ตัวล่าง', fontweight='bold')
        axes[0, 1].set_xlabel('เลข 2 ตัวล่าง')
        axes[0, 1].set_ylabel('ความถี่')
        axes[0, 1].set_xticks(range(len(numbers)))
        axes[0, 1].set_xticklabels(numbers, rotation=45, ha='right')
        axes[0, 1].grid(axis='y', alpha=0.3)

        # กราฟ 3: ความถี่ตามตำแหน่ง (ตำแหน่งที่ 1)
        pos1_freq = self.analysis_results['position_analysis']['ตำแหน่งที่ 1']
        pos1_digits = list(map(str, range(10)))
        pos1_frequencies = [pos1_freq.get(d, 0) for d in pos1_digits]

        axes[0, 2].bar(pos1_digits, pos1_frequencies, color='orange', edgecolor='red')
        axes[0, 2].set_title('🥇 ความถี่ตำแหน่งที่ 1', fontweight='bold')
        axes[0, 2].set_xlabel('ตัวเลข')
        axes[0, 2].set_ylabel('ความถี่')
        axes[0, 2].grid(axis='y', alpha=0.3)

        # กราฟ 4: ความถี่ตามตำแหน่ง (ตำแหน่งที่ 6)
        pos6_freq = self.analysis_results['position_analysis']['ตำแหน่งที่ 6']
        pos6_digits = list(map(str, range(10)))
        pos6_frequencies = [pos6_freq.get(d, 0) for d in pos6_digits]

        axes[1, 0].bar(pos6_digits, pos6_frequencies, color='purple', edgecolor='darkviolet')
        axes[1, 0].set_title('🏆 ความถี่ตำแหน่งที่ 6', fontweight='bold')
        axes[1, 0].set_xlabel('ตัวเลข')
        axes[1, 0].set_ylabel('ความถี่')
        axes[1, 0].grid(axis='y', alpha=0.3)

        # กราฟ 5: ความถี่ Digital Root รางวัลที่ 1
        digital_root_prize1_freq = self.analysis_results['digital_root_prize1_freq']
        dr_prize1_values = list(map(str, sorted(digital_root_prize1_freq.keys())))
        dr_prize1_freqs = [digital_root_prize1_freq.get(int(dr), 0) for dr in dr_prize1_values]

        axes[1, 1].bar(dr_prize1_values, dr_prize1_freqs, color='darkred', edgecolor='black')
        axes[1, 1].set_title('🔢 ความถี่ Digital Root (รางวัลที่ 1)', fontweight='bold')
        axes[1, 1].set_xlabel('Digital Root')
        axes[1, 1].set_ylabel('ความถี่')
        axes[1, 1].grid(axis='y', alpha=0.3)

        # กราฟ 6: ความถี่ Digital Root เลข 2 ตัวล่าง
        digital_root_last2_freq = self.analysis_results['digital_root_last2_freq']
        dr_last2_values = list(map(str, sorted(digital_root_last2_freq.keys())))
        dr_last2_freqs = [digital_root_last2_freq.get(int(dr), 0) for dr in dr_last2_values]

        axes[1, 2].bar(dr_last2_values, dr_last2_freqs, color='darkblue', edgecolor='white')
        axes[1, 2].set_title('🔢 ความถี่ Digital Root (2 ตัวล่าง)', fontweight='bold')
        axes[1, 2].set_xlabel('Digital Root')
        axes[1, 2].set_ylabel('ความถี่')
        axes[1, 2].grid(axis='y', alpha=0.3)


        plt.tight_layout(rect=[0, 0.03, 1, 0.95]) # ปรับ layout ให้มีที่ว่างสำหรับ suptitle
        plt.show()
        print("✅ สร้างกราฟเสร็จสิ้น")

    def predict_numbers(self, method='frequency'):
        """
        ทำนายเลขโดยใช้วิธีต่างๆ
        """
        print(f"\n🔮 กำลังทำนายเลขด้วยวิธี: {method}")

        predictions = {}
        digit_freq = self.analysis_results['digit_frequency']
        last2_freq = self.analysis_results['last2_frequency']

        if method == 'frequency':
            # ใช้ความถี่สูงสุด
            hot_digits = sorted(digit_freq.items(), key=lambda x: x[1], reverse=True)[:5]
            predictions['hot_digits'] = [digit for digit, _ in hot_digits]

            hot_last2 = sorted(last2_freq.items(), key=lambda x: x[1], reverse=True)[:5]
            predictions['hot_last2'] = [number for number, _ in hot_last2]

        elif method == 'cold':
            # ใช้ความถี่ต่ำสุด
            cold_digits = sorted(digit_freq.items(), key=lambda x: x[1])[:5]
            predictions['cold_digits'] = [digit for digit, _ in cold_digits]

            cold_last2 = sorted(last2_freq.items(), key=lambda x: x[1])[:5]
            predictions['cold_last2'] = [number for number, _ in cold_last2]

        elif method == 'digital_root':
            # ทำนายจาก Digital Root ที่พบบ่อย
            dr_prize1_freq = self.analysis_results['digital_root_prize1_freq']
            hot_dr_prize1 = sorted(dr_prize1_freq.items(), key=lambda x: x[1], reverse=True)[:3]
            predictions['hot_digital_root_prize1'] = [str(dr) for dr, _ in hot_dr_prize1]

            dr_last2_freq = self.analysis_results['digital_root_last2_freq']
            hot_dr_last2 = sorted(dr_last2_freq.items(), key=lambda x: x[1], reverse=True)[:3]
            predictions['hot_digital_root_last2'] = [str(dr) for dr, _ in hot_dr_last2]


        # แสดงผลการทำนาย
        print("\n🎯 ผลการทำนาย:")
        if 'hot_digits' in predictions:
            print(f"   เลขร้อน (ออกบ่อย): {', '.join(predictions['hot_digits'])}")
            print(f"   2 ตัวล่างร้อน: {', '.join(predictions['hot_last2'])}")
        if 'cold_digits' in predictions:
            print(f"   เลขเย็น (ออกน้อย): {', '.join(predictions['cold_digits'])}")
            print(f"   2 ตัวล่างเย็น: {', '.join(predictions['cold_last2'])}")
        if 'hot_digital_root_prize1' in predictions:
            print(f"   Digital Root รางวัลที่ 1 แนะนำ: {', '.join(predictions['hot_digital_root_prize1'])}")
            print(f"   Digital Root 2 ตัวล่างแนะนำ: {', '.join(predictions['hot_digital_root_last2'])}")

        return predictions

    def prepare_features_for_ml(self, df):
        """
        เตรียม Features สำหรับ Machine Learning
        สร้าง Features จากข้อมูลย้อนหลัง
        """
        features_df = pd.DataFrame()

        # ตัวอย่าง Feature: ความถี่ของเลขแต่ละหลักในอดีต (Lagged features)
        for i in range(1, 4): # ใช้ข้อมูลย้อนหลัง 3 งวด
            # เลขรางวัลที่ 1 (เป็น string)
            features_df[f'prev_prize1_str_lag{i}'] = df['รางวัลที่ 1 (6 หลัก)'].shift(i)
            # เลข 2 ตัวล่าง (เป็น string)
            features_df[f'prev_last2_str_lag{i}'] = df['เลข 2 ตัวล่าง'].shift(i)

            # Digital Root (เป็นตัวเลข)
            features_df[f'prev_dr_prize1_lag{i}'] = df['digital_root_prize1'].shift(i)
            features_df[f'prev_dr_last2_lag{i}'] = df['digital_root_last2'].shift(i)

        # ตัวอย่าง Target: เลข 2 ตัวล่างของงวดปัจจุบัน
        features_df['target_last2'] = df['เลข 2 ตัวล่าง']

        # แปลง string features ให้เป็น one-hot encoding
        cols_to_dummies = [col for col in features_df.columns if re.match(r'prev_prize1_str_lag|prev_last2_str_lag', col)]

        if cols_to_dummies:
            features_df = pd.get_dummies(features_df, columns=cols_to_dummies, dummy_na=False)

        features_df = features_df.dropna() # ลบแถวที่มีค่า NaN จากการ shift

        return features_df

    def train_ml_model(self, test_size_ratio=0.2):
        """
        ฝึกฝนโมเดล Machine Learning เพื่อทำนายเลข 2 ตัวล่าง
        """
        print(f"\n🧠 กำลังฝึกฝนโมเดล Machine Learning...")

        if self.data is None or len(self.data) < 100:
            print("❌ ข้อมูลไม่เพียงพอสำหรับการฝึกฝนโมเดล ML (ต้องมีอย่างน้อย 100 รายการ)")
            self.model = None
            return

        ml_data = self.prepare_features_for_ml(self.data.copy())

        if ml_data.empty:
            print("❌ ไม่สามารถสร้าง Features สำหรับ ML ได้ ตรวจสอบข้อมูล")
            self.model = None
            return

        # กำหนด X (Features) และ y (Target)
        X = ml_data.drop('target_last2', axis=1)
        y = ml_data['target_last2']

        # ตรวจสอบว่ามี Features ที่เป็นตัวเลขหรือไม่
        numeric_cols = X.select_dtypes(include=np.number).columns
        if numeric_cols.empty:
            print("❌ ไม่มี Features ที่เป็นตัวเลขสำหรับฝึกฝนโมเดล ML หลังจากทำ One-Hot Encoding")
            self.model = None
            return

        X = X[numeric_cols] # ใช้เฉพาะคอลัมน์ที่เป็นตัวเลข

        # ตรวจสอบจำนวนคลาสใน y
        if len(y.unique()) < 2:
            print("❌ จำนวนคลาสของ Target (เลข 2 ตัวล่าง) มีไม่เพียงพอสำหรับการฝึกฝนโมเดล ML")
            self.model = None
            return

        # แบ่งข้อมูลเป็น Training และ Test set
        try:
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size_ratio, random_state=42, stratify=y)
        except ValueError as e:
            print(f"❌ เกิดข้อผิดพลาดในการแบ่งข้อมูล (อาจเป็นเพราะมี class น้อยเกินไป): {e}")
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size_ratio, random_state=42) # ลองไม่ใช้ stratify
            if len(X_train) == 0 or len(X_test) == 0:
                print("❌ การแบ่งข้อมูลล้มเหลว. โปรดตรวจสอบขนาดข้อมูลและ test_size_ratio")
                self.model = None
                return

        print(f"   ขนาดข้อมูลฝึกฝน: {len(X_train)} ชุด, ขนาดข้อมูลทดสอบ: {len(X_test)} ชุด")

        # ตัวอย่าง: ใช้ Logistic Regression (สามารถเปลี่ยนเป็นโมเดลอื่นได้)
        self.model = LogisticRegression(solver='saga', multi_class='multinomial', max_iter=2000, n_jobs=-1) # เพิ่ม max_iter และ n_jobs
        try:
            self.model.fit(X_train, y_train)
            y_pred = self.model.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            print(f"✅ ฝึกฝนโมเดล ML เสร็จสิ้น. ความแม่นยำ (เลข 2 ตัวล่าง): {accuracy:.2%}")
        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดในการฝึกฝนโมเดล ML: {e}")
            self.model = None

    def predict_with_ml(self, num_predictions=1):
        """
        ใช้โมเดล ML ที่ฝึกฝนแล้วทำนายเลข 2 ตัวล่างสำหรับงวดถัดไป
        """
        if self.model is None:
            print("❗ ยังไม่ได้ฝึกฝนโมเดล ML. กรุณาเรียก train_ml_model() ก่อน.")
            return []

        print(f"\n🤖 กำลังทำนายเลข 2 ตัวล่างด้วยโมเดล ML...")

        # เตรียมข้อมูลสำหรับทำนายงวดล่าสุด
        rows_needed_for_features = 3 # จาก lag 1-3

        if len(self.data) < rows_needed_for_features:
            print(f"❌ ข้อมูลไม่เพียงพอสำหรับสร้าง Features ในการทำนายด้วย ML (ต้องมีอย่างน้อย {rows_needed_for_features} งวด)")
            return []

        # สร้าง DataFrame ชั่วคราวสำหรับการทำนายจากข้อมูลล่าสุด
        latest_data_for_features = self.data.head(rows_needed_for_features).copy()

        # สร้าง features จากข้อมูลล่าสุด
        temp_features_df = self.prepare_features_for_ml(self.data.copy())

        if temp_features_df.empty:
            print("❌ ไม่สามารถสร้าง Features สำหรับการทำนายด้วย ML ได้. ตรวจสอบ prepare_features_for_ml")
            return []

        # สร้าง X_predict จาก row สุดท้ายของ temp_features_df
        X_predict = temp_features_df.drop('target_last2', axis=1).iloc[-1:].copy()

        # ตรวจสอบและเลือกเฉพาะคอลัมน์ที่เป็นตัวเลขเหมือนตอน train
        numeric_cols_trained = self.model.feature_names_in_ if hasattr(self.model, 'feature_names_in_') else X_predict.select_dtypes(include=np.number).columns
        X_predict = X_predict[numeric_cols_trained]

        if X_predict.empty or X_predict.shape[1] != len(numeric_cols_trained):
            print("❌ โครงสร้าง Input สำหรับทำนายไม่ถูกต้อง หรือ Features ไม่ครบถ้วน")
            print(f"   Shape of X_predict: {X_predict.shape}")
            print(f"   Expected features: {len(numeric_cols_trained)}")
            return []

        try:
            # ทำนายและรับความน่าจะเป็น
            predicted_proba = self.model.predict_proba(X_predict)[0]

            # จัดเรียงความน่าจะเป็นจากมากไปน้อย
            sorted_proba_indices = np.argsort(predicted_proba)[::-1]

            top_predictions = []
            for i in range(min(num_predictions, len(sorted_proba_indices))):
                idx = sorted_proba_indices[i]
                predicted_num = self.model.classes_[idx]
                probability = predicted_proba[idx]
                top_predictions.append((predicted_num, probability))

            print(f"   เลข 2 ตัวล่างที่ทำนายโดย ML:")
            for num, prob in top_predictions:
                print(f"     {num} (ความน่าจะเป็น: {prob:.2%})")
            return top_predictions

        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดในการทำนายด้วยโมเดล ML: {e}")
            import traceback
            traceback.print_exc()
            return []

    def backtest_predictions(self, test_size=50):
        """
        ทดสอบประสิทธิภาพการทำนายด้วยกลยุทธ์ต่างๆ
        """
        print(f"\n🧪 เริ่มทดสอบประสิทธิภาพ (ทดสอบ {test_size} งวด)...")

        if len(self.data) < test_size + 100: # เพิ่ม buffer สำหรับ train data
            print("❌ ข้อมูลไม่เพียงพอสำหรับการทดสอบย้อนหลัง (ต้องมีอย่างน้อย 150 รายการ)")
            return None

        # ผลลัพธ์สำหรับแต่ละกลยุทธ์
        results = {
            'frequency': {'correct_digits': 0, 'correct_last2': 0, 'total_digit_attempts': 0, 'total_last2_attempts': 0},
            'cold': {'correct_digits': 0, 'correct_last2': 0, 'total_digit_attempts': 0, 'total_last2_attempts': 0},
            'ml_last2': {'correct_last2': 0, 'total_last2_attempts': 0} # เพิ่มสำหรับ ML
        }

        train_end_index = len(self.data) - test_size
        if train_end_index <= 0:
            print("❌ ไม่สามารถแบ่งข้อมูลสำหรับการ Backtest ได้. ข้อมูลอาจน้อยเกินไป.")
            return None

        historical_data_for_backtest = self.data.iloc[test_size:].copy()
        test_data_for_backtest = self.data.iloc[:test_size].copy()

        for i in range(test_size):
            current_train_data = historical_data_for_backtest.iloc[i:].copy()

            if len(current_train_data) < 50:
                continue

            temp_analyzer = LotteryAnalyzer()
            temp_analyzer.data = current_train_data
            temp_analyzer.analyze_frequency()

            actual_row = test_data_for_backtest.iloc[i]
            actual_prize1 = actual_row['รางวัลที่ 1 (6 หลัก)']
            actual_last2 = actual_row['เลข 2 ตัวล่าง']

            # --- ทดสอบกลยุทธ์ Frequency ---
            freq_predictions = temp_analyzer.predict_numbers('frequency')
            predicted_hot_digits = freq_predictions.get('hot_digits', [])
            predicted_hot_last2 = freq_predictions.get('hot_last2', [])

            results['frequency']['total_digit_attempts'] += 6
            results['frequency']['total_last2_attempts'] += 1

            for digit in actual_prize1:
                if digit in predicted_hot_digits:
                    results['frequency']['correct_digits'] += 1
            if actual_last2 in predicted_hot_last2:
                results['frequency']['correct_last2'] += 1

            # --- ทดสอบกลยุทธ์ Cold ---
            cold_predictions = temp_analyzer.predict_numbers('cold')
            predicted_cold_digits = cold_predictions.get('cold_digits', [])
            predicted_cold_last2 = cold_predictions.get('cold_last2', [])

            results['cold']['total_digit_attempts'] += 6
            results['cold']['total_last2_attempts'] += 1

            for digit in actual_prize1:
                if digit in predicted_cold_digits:
                    results['cold']['correct_digits'] += 1
            if actual_last2 in predicted_cold_last2:
                results['cold']['correct_last2'] += 1

            # --- ทดสอบกลยุทธ์ ML สำหรับเลข 2 ตัวล่าง ---
            rows_needed_for_ml_features = 3
            min_train_data_for_ml = 100

            if len(current_train_data) >= min_train_data_for_ml:
                try:
                    temp_analyzer.train_ml_model(test_size_ratio=0.0)
                    if temp_analyzer.model:
                        if len(current_train_data) >= rows_needed_for_ml_features:
                            ml_input_df_for_prediction = temp_analyzer.prepare_features_for_ml(current_train_data.head(rows_needed_for_ml_features))

                            if not ml_input_df_for_prediction.empty:
                                X_ml_predict = ml_input_df_for_prediction.drop('target_last2', axis=1).iloc[-1:].copy()

                                expected_features = temp_analyzer.model.feature_names_in_ if hasattr(temp_analyzer.model, 'feature_names_in_') else []
                                if expected_features:
                                    missing_cols = set(expected_features) - set(X_ml_predict.columns)
                                    for c in missing_cols:
                                        X_ml_predict[c] = 0
                                    X_ml_predict = X_ml_predict[expected_features]

                                    if not X_ml_predict.empty and X_ml_predict.shape[1] == len(expected_features):
                                        ml_predicted_last2_raw = temp_analyzer.model.predict(X_ml_predict)
                                        ml_predicted_last2 = ml_predicted_last2_raw[0] if len(ml_predicted_last2_raw) > 0 else None

                                        results['ml_last2']['total_last2_attempts'] += 1
                                        if ml_predicted_last2 == actual_last2:
                                            results['ml_last2']['correct_last2'] += 1
                except Exception as e:
                    pass
        # สรุปผลการทดสอบ
        print("\n📊 ผลการทดสอบประสิทธิภาพ:")
        print("-" * 50)

        for method, result in results.items():
            if method == 'ml_last2':
                if result['total_last2_attempts'] == 0:
                    print(f"\n🎯 วิธี: Machine Learning (เลข 2 ตัวล่าง) - ไม่มีข้อมูลเพียงพอสำหรับการทดสอบ/ฝึกฝน")
                    continue
                else:
                    method_name = "🤖 Machine Learning (เลข 2 ตัวล่าง)"
                    last2_accuracy = (result['correct_last2'] / result['total_last2_attempts']) * 100
                    print(f"\n🎯 วิธี: {method_name}")
                    print(f"   ความแม่นยำ 2 ตัวล่าง (ML): {last2_accuracy:.1f}%")
                    print(f"   ทดสอบทั้งหมด: {result['total_last2_attempts']} งวด")
            else:
                method_name = "🔥 ความถี่สูง" if method == 'frequency' else "❄️ ความถี่ต่ำ"
                if result['total_digit_attempts'] > 0:
                    digit_accuracy = (result['correct_digits'] / result['total_digit_attempts']) * 100
                    print(f"\n🎯 วิธี: {method_name}")
                    print(f"   ความแม่นยำเลขแต่ละหลัก: {digit_accuracy:.1f}%")

                if result['total_last2_attempts'] > 0:
                    last2_accuracy = (result['correct_last2'] / result['total_last2_attempts']) * 100
                    print(f"   ความแม่นยำ 2 ตัวล่าง: {last2_accuracy:.1f}%")

                print(f"   ทดสอบทั้งหมด: {result['total_last2_attempts']} งวด")

        return results

    def generate_recommendations(self):
        """
        สร้างคำแนะนำเลขสำหรับงวดถัดไป
        """
        print("\n🌟 คำแนะนำเลขสำหรับงวดถัดไป")
        print("=" * 50)

        # วิเคราะห์เทรนด์ล่าสุด (10 งวดล่าสุด)
        if self.data is None or self.data.empty:
            print("   ไม่มีข้อมูลสำหรับการสร้างคำแนะนำ.")
            return

        recent_data = self.data.head(10)
        if recent_data.empty:
            print("   ข้อมูลล่าสุดไม่เพียงพอ (น้อยกว่า 10 งวด) สำหรับสร้างคำแนะนำ.")
            return

        recent_digits = Counter()
        for number in recent_data['รางวัลที่ 1 (6 หลัก)']:
            for digit in str(number):
                recent_digits[digit] += 1

        # เลขที่ไม่ออกนาน (สำหรับเลข 2 ตัวล่าง)
        all_last2_numbers = [f"{i:02d}" for i in range(100)] # สร้างเลข 00-99
        recent_last2 = set(recent_data['เลข 2 ตัวล่าง'])

        # เลข 2 ตัวล่างที่ไม่ปรากฏในข้อมูลล่าสุด (10 งวด)
        missing_last2_recent = sorted([num for num in all_last2_numbers if num not in recent_last2])

        print(f"\n🔥 เลขร้อนล่าสุด (10 งวดล่าสุด):")
        recent_hot = sorted(recent_digits.items(), key=lambda x: x[1], reverse=True)[:5]
        if recent_hot:
            for digit, freq in recent_hot:
                print(f"   เลข {digit}: {freq} ครั้ง")
        else:
            print("   ไม่มีข้อมูลเลขร้อนล่าสุด")

        print(f"\n❄️ เลขเดี่ยวที่ไม่ออกใน 10 งวดล่าสุด:")
        # เลขเดี่ยว 0-9 ที่ไม่ปรากฏในรางวัลที่ 1 ของ 10 งวดล่าสุด
        missing_digits_recent = set('0123456789') - set(recent_digits.keys())
        if missing_digits_recent:
            print(f"   {', '.join(sorted(list(missing_digits_recent)))}")
        else:
            print("   ไม่มี (ทุกตัวเลขออกแล้วใน 10 งวดล่าสุด)")

        print(f"\n🎯 เลข 2 ตัวล่างแนะนำ:")
        # รวมเลขฮิตกับเลขที่ไม่ออกนาน
        last2_freq = self.analysis_results['last2_frequency']
        hot_last2 = sorted(last2_freq.items(), key=lambda x: x[1], reverse=True)[:5]

        print("   เลขฮิต (ออกบ่อยในอดีตทั้งหมด):")
        if hot_last2:
            for number, freq in hot_last2:
                print(f"     {number} ({freq} ครั้ง)")
        else:
            print("     ไม่มีข้อมูลเลข 2 ตัวล่างฮิต")

        if missing_last2_recent:
            print("   เลข 2 ตัวล่างที่ไม่ออกใน 10 งวดล่าสุด (เลือกบางส่วน):")
            sample_missing = sorted(missing_last2_recent)[:10] # เลือกมาแค่ 10 ตัวอย่าง
            for number in sample_missing:
                print(f"     {number}")
        else:
            print("   ไม่มีเลข 2 ตัวล่างที่ไม่ออกใน 10 งวดล่าสุด")

        # เพิ่มคำแนะนำจาก Digital Root
        recommended_dr_prize1 = None
        if self.analysis_results and 'digital_root_prize1_freq' in self.analysis_results and self.analysis_results['digital_root_prize1_freq']:
            recommended_dr_prize1 = sorted(self.analysis_results['digital_root_prize1_freq'].items(), key=lambda x: x[1], reverse=True)[0][0] # DR ที่พบบ่อยสุด

        recommended_dr_last2 = None
        if self.analysis_results and 'digital_root_last2_freq' in self.analysis_results and self.analysis_results['digital_root_last2_freq']:
            recommended_dr_last2 = sorted(self.analysis_results['digital_root_last2_freq'].items(), key=lambda x: x[1], reverse=True)[0][0] # DR ที่พบบ่อยสุด

        print(f"\n💡 สรุปคำแนะนำ:")
        print(f"   - เลขร้อนที่น่าสนใจ (เดี่ยว): {', '.join([d for d, _ in recent_hot[:3]]) if recent_hot else 'N/A'}")
        print(f"   - เลขเย็นที่น่าจับตา (เดี่ยว): {', '.join(sorted(list(missing_digits_recent))[:3]) if missing_digits_recent else 'N/A'}")
        print(f"   - 2 ตัวล่างจากความถี่: {hot_last2[0][0] if hot_last2 else 'N/A'}")

        if self.model:
            ml_predictions = self.predict_with_ml(num_predictions=3) # ทำนาย 3 ตัวด้วย ML
            if ml_predictions:
                print(f"   - 2 ตัวล่างจาก ML: {', '.join([p[0] for p in ml_predictions])}")
            else:
                print("   - 2 ตัวล่างจาก ML: N/A (ไม่สามารถทำนายได้)")
        else:
            print("   - 2 ตัวล่างจาก ML: N/A (โมเดลยังไม่ถูกฝึกฝน)")

        print(f"   - Digital Root รางวัลที่ 1 ที่พบบ่อย: {recommended_dr_prize1 if recommended_dr_prize1 is not None else 'N/A'}")
        print(f"   - Digital Root 2 ตัวล่างที่พบบ่อย: {recommended_dr_last2 if recommended_dr_last2 is not None else 'N/A'}")


# ฟังก์ชันหลักสำหรับรันระบบ
def main():
    """
    ฟังก์ชันหลักสำหรับรันระบบวิเคราะห์หวย
    """
    print("🎰 ระบบวิเคราะห์หวยไทย")
    print("=" * 50)

    # สร้างตัวแอนาไลเซอร์
    analyzer = LotteryAnalyzer()

    # ระบุ path ไฟล์ CSV
    # ตัวแปร uploaded_file_name จะถูกกำหนดค่าจากเซลล์แรก
    global uploaded_file_name

    file_path_to_use = None
    if 'uploaded_file_name' in globals() and uploaded_file_name is not None:
        file_path_to_use = uploaded_file_name
        print(f"📁 กำลังใช้ไฟล์ที่อัปโหลดจากเซลล์ก่อนหน้า: '{file_path_to_use}'")
    else:
        # Fallback กรณีไม่มีการอัปโหลดไฟล์ หรือตัวแปรไม่ได้ถูกตั้งค่า
        print("❗ ไม่พบชื่อไฟล์ที่อัปโหลดจากเซลล์ก่อนหน้า. ใช้ค่าเริ่มต้น 'ตารางเปล่า 21.csv' แทน")
        file_path_to_use = "ตารางเปล่า 21.csv" # กำหนดค่าเริ่มต้นเผื่อไว้ (ควรเป็นชื่อไฟล์ที่อยู่ใน Colab ได้)

    try:
        # โหลดและทำความสะอาดข้อมูล
        df = analyzer.load_and_clean_data(file_path_to_use)

        # วิเคราะห์ความถี่
        results = analyzer.analyze_frequency()

        # แสดงผลการวิเคราะห์
        analyzer.display_analysis()

        # สร้างกราฟ
        analyzer.create_visualizations()

        # ทำนายเลข
        analyzer.predict_numbers('frequency')
        analyzer.predict_numbers('cold')
        analyzer.predict_numbers('digital_root') # เพิ่มการทำนายด้วย Digital Root

        # ฝึกฝนโมเดล Machine Learning
        analyzer.train_ml_model()

        # ทดสอบประสิทธิภาพ (รวม ML ด้วย)
        analyzer.backtest_predictions(30) # จำนวนงวดที่จะทดสอบ

        # สร้างคำแนะนำ
        analyzer.generate_recommendations()

        print(f"\n✅ การวิเคราะห์เสร็จสิ้น!")

    except FileNotFoundError as e:
        print(f"❌ เกิดข้อผิดพลาด: {str(e)}")
        print("กรุณาตรวจสอบว่าคุณได้อัปโหลดไฟล์ที่ถูกต้องและชื่อไฟล์ตรงกันหรือไม่")
    except KeyError as e:
        print(f"❌ เกิดข้อผิดพลาด KeyError: {str(e)}")
        print("กรุณาตรวจสอบชื่อคอลัมน์ในไฟล์ CSV ของคุณให้ตรงกับที่โปรแกรมคาดหวัง ('วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง') หรือปรับแก้โค้ดใน load_and_clean_data ให้ตรงกับชื่อคอลัมน์จริง")
    except Exception as e:
        print(f"❌ เกิดข้อผิดพลาดทั่วไป: {str(e)}")
        import traceback
        traceback.print_exc() # พิมพ์ stack trace เพื่อช่วยในการ debug

# รันระบบ
if __name__ == "__main__":
    main()



🎰 ระบบวิเคราะห์หวยไทย
❗ ไม่พบชื่อไฟล์ที่อัปโหลดจากเซลล์ก่อนหน้า. ใช้ค่าเริ่มต้น 'ตารางเปล่า 21.csv' แทน
🔄 กำลังโหลดและทำความสะอาดข้อมูล...
✅ โหลดไฟล์: 'ตารางเปล่า 21.csv' สำเร็จแล้ว
🔍 ชื่อคอลัมน์ทั้งหมดในไฟล์ (หลังจากทำความสะอาดเบื้องต้น):
['<artifact identifier="lottery_csv" type="text/plain" title="ตารางเปล่า 20.csv">', 'Unnamed: 1', 'Unnamed: 2']
❌ เกิดข้อผิดพลาด KeyError: '❌ ไม่พบคอลัมน์ \'วันที่\' ในไฟล์ของคุณ. ชื่อคอลัมน์ที่มีอยู่: [\'<artifact identifier="lottery_csv" type="text/plain" title="ตารางเปล่า 20.csv">\', \'Unnamed: 1\', \'Unnamed: 2\']'
กรุณาตรวจสอบชื่อคอลัมน์ในไฟล์ CSV ของคุณให้ตรงกับที่โปรแกรมคาดหวัง ('วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง') หรือปรับแก้โค้ดใน load_and_clean_data ให้ตรงกับชื่อคอลัมน์จริง
