<a href="https://colab.research.google.com/github/treekeaw1/-mana-bento-web/blob/main/Untitled%E0%B8%97%E0%B8%B3%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B8%AB%E0%B8%A7%E0%B8%A2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
from datetime import datetime
from io import StringIO, BytesIO
from google.colab import files # Library for file upload button in Google Colab
from sklearn.model_selection import train_test_split # For splitting data into training and test sets
from sklearn.ensemble import RandomForestClassifier # Our chosen ML model
from sklearn.metrics import accuracy_score # To evaluate model performance
import numpy as np # For numerical operations, especially with probabilities

class LotteryPatternAnalyzer:
    # Modified: Added window_size to init, default to 6
    def __init__(self, window_size=6):
        self.data = []
        self.analysis_results = []
        self.summary = None
        self.ml_models = {} # Dictionary to store trained ML models for each digit position
        self.window_size = window_size # New attribute to store the historical window size

        # Mapping for detailed position descriptions in a combined 8-digit string (left to right)
        # This mapping assumes the combined string is 'two_digit' (indices 0-1) + 'six_digit' (indices 2-7)
        self.combined_digit_positions = {
            0: 'เลข 2 ตัวล่าง (หลักสิบ)',
            1: 'เลข 2 ตัวล่าง (หลักหน่วย)',
            2: 'รางวัลที่ 1 (หลักแสน)',
            3: 'รางวัลที่ 1 (หลักหมื่น)',
            4: 'รางวัลที่ 1 (หลักพัน)',
            5: 'รางวัลที่ 1 (หลักร้อย)',
            6: 'รางวัลที่ 1 (หลักสิบ)',
            7: 'รางวัลที่ 1 (หลักหน่วย)'
        }

    def load_data_from_file(self):
        """
        Allows the user to select a CSV file, loads the data, and performs cleaning.
        - Displays a button for file selection.
        - Skips the first row (if it's empty or not actual CSV data).
        - Validates and pads numbers with leading zeros.
        - Converts dates to datetime objects.
        - Sorts data from oldest to newest for chronological analysis.
        """
        print("📊 กรุณาคลิกปุ่มด้านล่างเพื่อเลือกไฟล์ CSV สำหรับวิเคราะห์ (เช่น 'ตารางเปล่า 21.csv')")

        # Display the file upload button in Google Colab
        uploaded = files.upload() # นี่คือฟังก์ชันที่เปิดหน้าต่างให้อัปโหลดไฟล์

        if not uploaded:
            print("❗ ไม่มีการเลือกไฟล์ โปรดเลือกไฟล์ใหม่เพื่อดำเนินการ")
            return False

        # Get the filename and binary content of the uploaded file
        # files.upload() typically returns a dictionary with one entry if a single file is selected
        filepath = list(uploaded.keys())[0] # ดึงชื่อไฟล์ที่อัปโหลด
        file_content = uploaded[filepath] # ดึงเนื้อหาไฟล์ออกมา

        print(f"กำลังโหลดและทำความสะอาดข้อมูลจากไฟล์: {filepath}")
        try:
            # Read CSV file, skipping the first row (index 0) and using utf-8-sig encoding for Thai characters
            # header=0 means the first row after skipping is treated as the header
            df = pd.read_csv(BytesIO(file_content), encoding='utf-8-sig', skiprows=[0], header=0)

            # Define mapping for expected Thai column names to standard English names
            thai_col_mapping = {
                'วันที่': 'date',
                'รางวัลที่ 1 (6 หลัก)': 'six_digit',
                'เลข 2 ตัวล่าง': 'two_digit',
                # Add other possible Thai column names here if your file has different variations
            }

            # Rename columns in the DataFrame. Normalize column names in the file first (strip spaces, lowercase)
            # to handle minor variations in spacing or casing.
            normalized_columns_map = {col.strip().lower(): col for col in df.columns}
            rename_dict = {}
            for thai_name, eng_name in thai_col_mapping.items():
                if thai_name.lower() in normalized_columns_map:
                    rename_dict[normalized_columns_map[thai_name.lower()]] = eng_name
            df.rename(columns=rename_dict, inplace=True)

            # Check if all required columns are present after renaming
            required_cols = ['date', 'six_digit', 'two_digit']
            if not all(col in df.columns for col in required_cols):
                missing_cols = [col for col in required_cols if col not in df.columns]
                raise ValueError(f"ไฟล์ CSV ไม่มีคอลัมน์ที่จำเป็น: {', '.join(missing_cols)}. โปรดตรวจสอบว่าไฟล์ของคุณมีคอลัมน์ 'วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง' และชื่อคอลัมน์ถูกต้อง)")

            # Convert 'date' column to datetime objects
            # 'errors=coerce' will turn invalid date formats into NaT (Not a Time)
            df['date'] = pd.to_datetime(df['date'], errors='coerce')
            # Remove rows with NaT in the 'date' column (invalid or incomplete dates)
            df.dropna(subset=['date'], inplace=True)

            # --- Critical fix for handling missing values and float conversion ---
            # 1. Attempt to convert 'six_digit' and 'two_digit' columns to numeric.
            #    Any non-numeric values (including empty strings or 'nan' strings) will become NaN.
            df['six_digit'] = pd.to_numeric(df['six_digit'], errors='coerce')
            df['two_digit'] = pd.to_numeric(df['two_digit'], errors='coerce')

            # 2. Remove rows where 'six_digit' or 'two_digit' are NaN (meaning they were initially empty or invalid numbers).
            df.dropna(subset=['six_digit', 'two_digit'], inplace=True)

            # 3. Convert numbers to integers (to remove .0 decimals), then to strings, and pad with leading zeros.
            df['six_digit'] = df['six_digit'].astype(int).astype(str).str.zfill(6)
            df['two_digit'] = df['two_digit'].astype(int).astype(str).str.zfill(2)
            # --- End of critical fix ---

            # Convert DataFrame to a list of dictionaries, which aligns with the class's internal data structure.
            # Sort data chronologically from oldest to newest (Ascending)
            # This ensures that the analysis proceeds from past results towards the present.
            self.data = df.sort_values(by='date', ascending=True).to_dict('records')
            print(f"✅ โหลดข้อมูลและทำความสะอาดเรียบร้อยแล้ว จำนวน {len(self.data)} แถว")
            return True
        except pd.errors.EmptyDataError:
            print("❌ ไฟล์ CSV ว่างเปล่าหรือไม่มีข้อมูลที่อ่านได้ โปรดตรวจสอบเนื้อหาไฟล์")
            return False
        except ValueError as e:
            print(f"❌ ข้อผิดพลาดในการอ่านหรือประมวลผลไฟล์ CSV: {e}")
            print("โปรดตรวจสอบโครงสร้างไฟล์ CSV ของคุณว่าตรงตามที่ระบุหรือไม่ (เช่น มีคอลัมน์ 'วันที่', 'รางวัลที่ 1 (6 หลัก)', 'เลข 2 ตัวล่าง' และชื่อคอลัมน์ถูกต้อง)")
            return False
        except Exception as e:
            print(f"❌ เกิดข้อผิดพลาดที่ไม่คาดคิดขณะโหลดไฟล์: {e}")
            return False

    def analyze_flow_pattern(self, data):
        """
        Analyzes the 'Flow Pattern' based on the user's new definition.
        For each 'target row' (the (window_size + 1)th row in a chronological window), it checks
        how its digits are derived/formed from the preceding 'window_size' 'historical rows'.
        It records the 'pattern of occurrence, flow, and arrangement' by detailing
        where each digit of the target row originated from in the historical rows.
        """
        results = []

        # Modified: Loop through the data starting from self.window_size index
        for i in range(self.window_size, len(data)):
            current_target_row = data[i] # This is the "target row" (the outcome to be explained)
            preceding_history_rows = data[i-self.window_size:i] # These are the historical rows

            # Combine the 2-digit lower and 6-digit first prize numbers into a single 8-digit string
            # Example: R1="522630", L2="37" -> combined "37522630"
            # Digits are then processed left-to-right from this combined string for the target row.
            target_digits_combined_lr = current_target_row['two_digit'] + current_target_row['six_digit']

            # Store analysis for each digit of the target row
            digit_flow_analysis = []

            # Iterate through each digit of the current_target_row (8 digits, left to right)
            for target_digit_idx, target_digit_value in enumerate(target_digits_combined_lr):
                sources_in_past_rows = [] # To store details of where this target digit was found
                found_count_for_target_digit = 0 # Count of how many times this specific target digit appeared

                # Check this target_digit_value against all digits in each of the preceding history rows
                for past_row_offset, past_row in enumerate(preceding_history_rows):
                    # Combine digits of the historical row for searching
                    past_row_combined_digits_lr = past_row['two_digit'] + past_row['six_digit']

                    # Iterate through each digit in the current historical row to find matches
                    for past_digit_idx, past_digit_value in enumerate(past_row_combined_digits_lr):
                        if past_digit_value == target_digit_value:
                            found_count_for_target_digit += 1
                            sources_in_past_rows.append({
                                # Modified: Use self.window_size for relative index
                                'source_row_relative_index': self.window_size - past_row_offset,
                                'source_digit_value': past_digit_value,
                                'source_position_desc': self.combined_digit_positions.get(past_digit_idx, f'ตำแหน่งที่ {past_digit_idx+1} (ไม่ระบุ)'),
                                'source_date': past_row['date'].strftime('%Y/%m/%d')
                            })

                digit_flow_analysis.append({
                    'target_digit_value': target_digit_value,
                    'target_position_desc': self.combined_digit_positions.get(target_digit_idx, f'ตำแหน่งที่ {target_digit_idx+1} (ไม่ระบุ)'),
                    'total_found_in_past_rows': found_count_for_target_digit,
                    'sources': sources_in_past_rows # Detailed list of all occurrences
                })

            # Calculate summary metrics for the current target row
            # 'all_target_digits_found_at_least_once': True if each of the 8 target digits was found at least once.
            all_target_digits_found_at_least_once = all(item['total_found_in_past_rows'] > 0 for item in digit_flow_analysis)

            # 'total_occurrences_of_target_digits_from_past': Sum of all times *any* digit from the target row was found.
            total_occurrences_of_target_digits_from_past = sum(item['total_found_in_past_rows'] for item in digit_flow_analysis)

            # 'match_percentage_coverage': Percentage of *distinct* target digits (out of 8) that were found at least once. (Max 100%)
            match_percentage_coverage = (len([item for item in digit_flow_analysis if item['total_found_in_past_rows'] > 0]) / 8) * 100

            # 'match_percentage_total_occurrence': Percentage based on the sum of *all* occurrences (can exceed 100%)
            match_percentage_total_occurrence = (total_occurrences_of_target_digits_from_past / 8) * 100

            results.append({
                'index': i, # Index of the current_target_row in the original (sorted) data
                'date': current_target_row['date'].strftime('%Y/%m/%d'),
                'six_digit': current_target_row['six_digit'],
                'two_digit': current_target_row['two_digit'],
                # Modified: Use generic key for preceding history rows
                'preceding_history_rows': [{'date': r['date'].strftime('%Y/%m/%d'),
                                            'six_digit': r['six_digit'],
                                            'two_digit': r['two_digit']} for r in preceding_history_rows],
                'digit_flow_analysis': digit_flow_analysis, # Detailed flow analysis
                'all_target_digits_found_at_least_once': all_target_digits_found_at_least_once,
                'total_occurrences_of_target_digits_from_past': total_occurrences_of_target_digits_from_past,
                'match_percentage_coverage': match_percentage_coverage,
                'match_percentage_total_occurrence': match_percentage_total_occurrence
            })

        return results

    def calculate_summary(self, results):
        """Calculates overall summary statistics for the analysis results."""
        total_rows = len(results)
        if total_rows == 0: # Prevent division by zero
            return {
                'total_rows': 0, 'perfect_matches_coverage': 0, 'partial_matches_coverage': 0,
                'no_matches_coverage': 0, 'perfect_match_rate_coverage': 0,
                'avg_percentage_coverage': 0, 'min_percentage_coverage': 0, 'max_percentage_coverage': 0,
                'avg_percentage_total_occurrence': 0, 'min_percentage_total_occurrence': 0, 'max_percentage_total_occurrence': 0
            }

        # Summary statistics for Coverage (percentage of distinct digits found)
        perfect_matches_coverage = len([r for r in results if r['all_target_digits_found_at_least_once']])
        partial_matches_coverage = len([r for r in results if not r['all_target_digits_found_at_least_once'] and r['match_percentage_coverage'] > 0])
        no_matches_coverage = len([r for r in results if r['match_percentage_coverage'] == 0])

        percentages_coverage = [r['match_percentage_coverage'] for r in results]
        avg_percentage_coverage = sum(percentages_coverage) / total_rows

        # Summary statistics for Total Occurrence (percentage based on all appearances, can exceed 100%)
        percentages_total_occurrence = [r['match_percentage_total_occurrence'] for r in results]
        avg_percentage_total_occurrence = sum(percentages_total_occurrence) / total_rows

        return {
            'total_rows': total_rows,
            'perfect_matches_coverage': perfect_matches_coverage,
            'partial_matches_coverage': partial_matches_coverage,
            'no_matches_coverage': no_matches_coverage,
            'perfect_match_rate_coverage': (perfect_matches_coverage / total_rows) * 100,
            'avg_percentage_coverage': round(avg_percentage_coverage, 1),
            'min_percentage_coverage': min(percentages_coverage),
            'max_percentage_coverage': max(percentages_coverage),
            'avg_percentage_total_occurrence': round(avg_percentage_total_occurrence, 1),
            'min_percentage_total_occurrence': min(percentages_total_occurrence),
            'max_percentage_total_occurrence': max(percentages_total_occurrence)
        }

    def run_analysis(self):
        """Executes the entire analysis process."""
        print("\n🎯 กำลังวิเคราะห์ Flow Pattern...")
        # Modified: Print window size
        print(f"ใช้ข้อมูลย้อนหลัง {self.window_size} งวดสำหรับการวิเคราะห์ Flow Pattern")
        print("=" * 60)

        if not self.data:
            print("❗ ไม่มีข้อมูลให้วิเคราะห์ โปรดตรวจสอบการโหลดไฟล์")
            return None, None

        self.analysis_results = self.analyze_flow_pattern(self.data)
        print(f"✅ วิเคราะห์ข้อมูลได้ {len(self.analysis_results)} แถว")

        self.summary = self.calculate_summary(self.analysis_results)
        self.display_summary()

        return self.analysis_results, self.summary

    def display_summary(self):
        """Displays the overall summary of the Flow Pattern test."""
        print("\n📊 ผลสรุปการทดสอบ Flow Pattern")
        print("=" * 60)

        if self.summary:
            print(f"จำนวนแถว (งวด) ที่นำมาทดสอบ: {self.summary['total_rows']} แถว")

            print(f"\n--- สรุปความครอบคลุมของหลัก (Percentage of Unique Digits Covered) (จาก {self.window_size} งวดอดีต) ---")
            # Modified: Update print statement to reflect window_size
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบัน (8 หลัก) ครบทุกหลักถูกพบใน {self.window_size} งวดก่อนหน้า: {self.summary['perfect_matches_coverage']} งวด ({self.summary['perfect_match_rate_coverage']:.1f}%)")
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบันถูกพบบางส่วน: {self.summary['partial_matches_coverage']} งวด")
            print(f"จำนวนงวดที่หลักตัวเลขปัจจุบันไม่ถูกพบเลย: {self.summary['no_matches_coverage']} งวด")
            print(f"ค่าเฉลี่ยความครอบคลุมของหลัก: {self.summary['avg_percentage_coverage']}%")
            print(f"ความครอบคลุมต่ำสุด: {self.summary['min_percentage_coverage']}%")
            print(f"ความครอบคลุมสูงสุด: {self.summary['max_percentage_coverage']}%")

            print("\n--- สรุปความเข้มข้นของการปรากฏ (Total Occurrence Percentage) ---")
            print("หมายเหตุ: ค่านี้สามารถเกิน 100% ได้ หากตัวเลขมีการปรากฏซ้ำหลายครั้ง")
            print(f"ค่าเฉลี่ยความเข้มข้นการปรากฏ: {self.summary['avg_percentage_total_occurrence']}%")
            print(f"ความเข้มข้นต่ำสุด: {self.summary['min_percentage_total_occurrence']}%")
            print(f"ความเข้มข้นสูงสุด: {self.summary['max_percentage_total_occurrence']}%")

            print("\n🎯 บทสรุปของ Pattern นี้:")
            if self.summary['perfect_match_rate_coverage'] > 50 and self.summary['avg_percentage_total_occurrence'] > 100:
                # Modified: Update print statement to reflect window_size
                print(f"✅ Pattern นี้มีความน่าสนใจสูงมาก! ตัวเลขจาก {self.window_size} งวดอดีตมีแนวโน้มที่จะ 'ไหล' ไปปรากฏในงวดถัดไปสูง และมีความหลากหลายในการจัดเรียง")
            elif self.summary['perfect_match_rate_coverage'] > 20 or self.summary['avg_percentage_total_occurrence'] > 50:
                # Modified: Update print statement to reflect window_size
                print(f"⚠️ Pattern นี้มีความน่าสนใจปานกลาง ตัวเลขจาก {self.window_size} งวดอดีตมีแนวโน้มที่จะ 'ไหล' ไปปรากฏในงวดถัดไป")
            elif self.summary['perfect_match_rate_coverage'] > 0 or self.summary['avg_percentage_total_occurrence'] > 0:
                print("❌ Pattern นี้อาจมีความน่าสนใจต่ำ หรืออาจต้องการการปรับปรุงวิธีการวิเคราะห์เพิ่มเติม")
            else:
                print("❌ ไม่พบ Pattern ที่น่าสนใจเลยในข้อมูลนี้")

    def get_perfect_matches(self):
        """Retrieves all rows (target rows) where the pattern is 100% covered (all 8 distinct digits found)."""
        if not self.analysis_results:
            return []

        perfect_results = [r for r in self.analysis_results if r['all_target_digits_found_at_least_once']]
        return perfect_results

    def export_results_to_csv(self, filename="lottery_analysis_results.csv"):
        """Exports the analysis results to a CSV file."""
        if not self.analysis_results:
            print("❗ ไม่มีข้อมูลสำหรับส่งออก")
            return

        data_for_export = []
        for result in self.analysis_results:
            data_for_export.append({
                'แถวที่ (งวดเป้าหมาย)': result['index'] + 1,
                'วันที่_งวดเป้าหมาย': result['date'],
                'รางวัลที่1_งวดเป้าหมาย': result['six_digit'],
                'เลข2ตัวล่าง_งวดเป้าหมาย': result['two_digit'],
                'ครอบคลุม_Pattern_100%': 'ใช่' if result['all_target_digits_found_at_least_once'] else 'ไม่',
                'เปอร์เซ็นต์_ความครอบคลุม': f"{result['match_percentage_coverage']:.1f}%",
                'เปอร์เซ็นต์_ความเข้มข้นการปรากฏ': f"{result['match_percentage_total_occurrence']:.1f}%",
                'จำนวนครั้งที่พบ_ทั้งหมด_จากอดีต': result['total_occurrences_of_target_digits_from_past'] # Modified for clarity
            })

        df = pd.DataFrame(data_for_export)
        # Use encoding='utf-8-sig' for correct display of Thai characters in spreadsheet programs like Microsoft Excel
        df.to_csv(filename, index=False, encoding='utf-8-sig')
        print(f"✅ ส่งออกผลการวิเคราะห์ไปยังไฟล์ '{filename}' เรียบร้อยแล้ว")

    def extract_flow_matrix(self):
        """
        Extracts and summarizes the detailed flow patterns into a Pandas DataFrame (Flow Matrix).
        This matrix shows how often specific target digits (at specific positions)
        originate from specific source digits (at specific positions) within the preceding 'window_size' rows.
        The aggregation is by (Target Digit, Target Position, Source Digit, Source Position).
        """
        if not self.analysis_results:
            print("❗ ไม่มีผลการวิเคราะห์ให้สร้าง Flow Matrix")
            return pd.DataFrame()

        flow_data_list = []
        for result in self.analysis_results:
            for flow_analysis_item in result['digit_flow_analysis']:
                target_digit = flow_analysis_item['target_digit_value']
                target_pos = flow_analysis_item['target_position_desc']

                # Modified: Iterate over 'sources' which contain the flow details
                for source_detail in flow_analysis_item['sources']:
                    source_digit = source_detail['source_digit_value']
                    source_pos = source_detail['source_position_desc']
                    # source_row_rel_idx = source_detail['source_row_relative_index'] # We will aggregate across this for now

                    flow_data_list.append({
                        'หลักงวดเป้าหมาย': target_digit,
                        'ตำแหน่ง_หลักงวดเป้าหมาย': target_pos,
                        'หลักต้นกำเนิด_จากอดีต': source_digit,
                        'ตำแหน่ง_หลักต้นกำเนิด': source_pos,
                        # 'งวดอดีต_ลำดับที่': source_row_rel_idx # Can add this back for more granularity
                    })

        if not flow_data_list:
            print("❗ ไม่พบข้อมูลการไหลเวียนเพื่อสร้าง Flow Matrix")
            return pd.DataFrame()

        flow_df = pd.DataFrame(flow_data_list)

        # Aggregate by Target Digit/Position and Source Digit/Position to count total flows
        flow_summary_df = flow_df.groupby([
            'หลักงวดเป้าหมาย', 'ตำแหน่ง_หลักงวดเป้าหมาย', 'หลักต้นกำเนิด_จากอดีต', 'ตำแหน่ง_หลักต้นกำเนิด'
        ]).size().reset_index(name='จำนวนครั้งที่ไหล')

        # Sort by the most frequent flows
        flow_summary_df.sort_values(by='จำนวนครั้งที่ไหล', ascending=False, inplace=True)

        return flow_df # Return the raw flow data for potential further use in ML features

    def generate_ml_dataset(self):
        """
        Generates a dataset suitable for Machine Learning, where features are derived
        from the preceding 'window_size' rows and labels are the digits of the target row.
        """
        if not self.analysis_results:
            print("❗ ไม่มีผลการวิเคราะห์ให้สร้าง ML Dataset")
            return pd.DataFrame(), pd.DataFrame() # Return empty DataFrames for features and labels

        features_list = []
        labels_list = []

        # Iterate through each analysis result (each represents a target row and its preceding history rows)
        for result in self.analysis_results:
            current_features = {}
            current_labels = {}

            # --- Extract Features from Preceding History Rows ---
            preceding_history_rows = result['preceding_history_rows'] # Modified key name

            # 1. Overall Digit Frequencies (0-9) in Preceding N Rows (window_size * 8 digits total)
            all_preceding_digits = ''.join([r['two_digit'] + r['six_digit'] for r in preceding_history_rows])
            for digit in range(10):
                current_features[f'feature_preceding_digit_freq_{digit}'] = all_preceding_digits.count(str(digit))

            # 2. Positional Digit Frequencies (0-9) in Preceding N Rows (for each of 8 positions)
            # Loop through each of the 8 possible positions (index 0-7)
            for pos_idx in range(8):
                # Concatenate the digit at this specific position from all self.window_size preceding rows
                digits_at_this_pos = ""
                for row in preceding_history_rows:
                    combined_digits = row['two_digit'] + row['six_digit']
                    if pos_idx < len(combined_digits): # Ensure index is valid
                        digits_at_this_pos += combined_digits[pos_idx]

                # Count frequency for each digit (0-9) at this position
                for digit in range(10):
                    feature_name = f'feature_preceding_pos{pos_idx}_digit_freq_{digit}'
                    current_features[feature_name] = digits_at_this_pos.count(str(digit))

            features_list.append(current_features)

            # --- Extract Labels from Target Row ---
            target_digits_combined_lr = result['two_digit'] + result['six_digit']
            for pos_idx, digit_value in enumerate(target_digits_combined_lr):
                label_name = f'label_target_digit_pos{pos_idx}'
                current_labels[label_name] = int(digit_value) # Labels should be integers for classification

            labels_list.append(current_labels)

        # Convert lists of dictionaries to DataFrames
        features_df = pd.DataFrame(features_list)
        labels_df = pd.DataFrame(labels_list)

        print(f"\n✅ สร้าง ML Dataset เรียบร้อยแล้ว:")
        print(f"   - Features DataFrame ขนาด: {features_df.shape}")
        print(f"   - Labels DataFrame ขนาด: {labels_df.shape}")

        return features_df, labels_df

    def train_ml_models(self, features_df, labels_df):
        """
        Trains a RandomForestClassifier model for each of the 8 digit positions.
        """
        if features_df.empty or labels_df.empty:
            print("❗ ไม่สามารถฝึกโมเดลได้: ML Dataset ว่างเปล่า")
            return

        print("\n⚙️ กำลังฝึก Machine Learning Models...")
        print("=" * 60)

        # We will train a separate model for each digit position (8 models in total)
        self.ml_models = {}
        overall_accuracies = []

        # Loop through each target digit position (pos_idx from 0 to 7)
        for pos_idx in range(8):
            label_column = f'label_target_digit_pos{pos_idx}'
            position_desc = self.combined_digit_positions.get(pos_idx, f'ตำแหน่งที่ {pos_idx+1}')

            print(f"   - กำลังฝึกโมเดลสำหรับ: {position_desc}...")

            # X = features, y = labels for the current position
            X = features_df
            y = labels_df[label_column]

            # Split data into training and testing sets
            # test_size=0.2 means 20% of data will be used for testing, random_state for reproducibility
            X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

            # Initialize and train the RandomForestClassifier
            # n_estimators is the number of trees in the forest
            # random_state for reproducibility
            model = RandomForestClassifier(n_estimators=100, random_state=42)
            model.fit(X_train, y_train)

            # Evaluate the model on the test set
            y_pred = model.predict(X_test)
            accuracy = accuracy_score(y_test, y_pred)
            overall_accuracies.append(accuracy)

            # Store the trained model
            self.ml_models[pos_idx] = model
            print(f"     ✅ ฝึกโมเดล {position_desc} เสร็จสิ้น. ความแม่นยำ (Test Accuracy): {accuracy:.2f}")

        avg_overall_accuracy = sum(overall_accuracies) / len(overall_accuracies) if overall_accuracies else 0
        print(f"\n✨ ฝึก ML Models ทั้งหมด 8 ตำแหน่งเสร็จสิ้น. ความแม่นยำเฉลี่ยโดยรวม: {avg_overall_accuracy:.2f}")

    def predict_next_lottery_numbers(self):
        """
        Uses the trained ML models to predict the next lottery numbers based on the last 'self.window_size' rows of available data.
        Generates 4 diverse prediction sets and applies post-processing to avoid exact repeats of the last historical row.
        """
        if not self.ml_models:
            print("❗ ไม่สามารถคาดการณ์ได้: ไม่มี ML Model ถูกฝึกฝน")
            return [] # Return empty list for predictions
        if len(self.data) < self.window_size:
            print(f"❗ ไม่มีข้อมูลประวัติ {self.window_size} งวดล่าสุดเพียงพอสำหรับการคาดการณ์")
            return [] # Return empty list

        print("\n🔮 กำลังคาดการณ์ผลสลากงวดถัดไป (โดย ML Model)...")
        print("=" * 60)

        # Get the last 'self.window_size' rows of data for feature generation
        last_n_rows = self.data[-self.window_size:]

        print(f"ใช้ข้อมูล {self.window_size} งวดล่าสุดเป็นฐานการคาดการณ์:")
        for i, row in enumerate(last_n_rows):
            # Ensure 'date' is formatted as a string for consistent printing
            date_str = row['date'].strftime('%Y/%m/%d') if isinstance(row['date'], datetime) else str(row['date'])
            print(f"  งวดที่ {i+1}: วันที่ {date_str} | รางวัลที่ 1: {row['six_digit']} | เลข 2 ตัวล่าง: {row['two_digit']}")

        # Prepare features for the prediction (for a single instance)
        prediction_features = {}
        all_preceding_digits = ''.join([r['two_digit'] + r['six_digit'] for r in last_n_rows])
        for digit in range(10):
            prediction_features[f'feature_preceding_digit_freq_{digit}'] = all_preceding_digits.count(str(digit))

        for pos_idx in range(8):
            digits_at_this_pos = ""
            for row in last_n_rows:
                combined_digits = row['two_digit'] + row['six_digit']
                if pos_idx < len(combined_digits):
                    digits_at_this_pos += combined_digits[pos_idx]
            for digit in range(10):
                feature_name = f'feature_preceding_pos{pos_idx}_digit_freq_{digit}'
                prediction_features[feature_name] = digits_at_this_pos.count(str(digit))

        prediction_features_df = pd.DataFrame([prediction_features])

        all_predicted_sets = [] # List to store all 4 prediction sets

        # --- Generate Prediction Set 1 (Most Probable, with Non-Recurrence Post-processing) ---
        predicted_digits_set1_raw = [""] * 8 # Raw prediction before post-processing
        for pos_idx in range(8):
            if pos_idx in self.ml_models:
                model = self.ml_models[pos_idx]
                predicted_digit = model.predict(prediction_features_df)[0]
                predicted_digits_set1_raw[pos_idx] = str(predicted_digit)
            else:
                predicted_digits_set1_raw[pos_idx] = "?"

        combined_pred_set1_str = "".join(predicted_digits_set1_raw[0:2]) + "".join(predicted_digits_set1_raw[2:8])
        last_historical_combined_str = last_n_rows[-1]['two_digit'] + last_n_rows[-1]['six_digit']

        # Post-processing: If Prediction Set 1 is identical to the last historical row,
        # modify it to ensure it's different.
        predicted_digits_set1_final = list(predicted_digits_set1_raw) # Start with raw prediction
        if combined_pred_set1_str == last_historical_combined_str:
            print("\n🚨 การทำนายชุดที่ 1 ตรงกับงวดล่าสุดในประวัติ! กำลังปรับเปลี่ยนเพื่อหลีกเลี่ยงการซ้ำ...")

            for i in range(8): # Modify digits to break the repetition
                if predicted_digits_set1_final[i] != '?': # Ensure it's a valid digit before modifying
                    current_digit = int(predicted_digits_set1_final[i])
                    # Apply a small, varied increment to ensure difference and some diversity
                    new_digit = (current_digit + (i % 3) + 1) % 10 # Increment by 1, 2, or 3 based on position, then modulo 10
                    predicted_digits_set1_final[i] = str(new_digit)
            combined_pred_set1_str_final = "".join(predicted_digits_set1_final[0:2]) + "".join(predicted_digits_set1_final[2:8])
        else:
            combined_pred_set1_str_final = combined_pred_set1_str

        all_predicted_sets.append({
            'set_name': 'ชุดที่ 1 (โอกาสสูงสุด - ปรับแล้วหากซ้ำ)',
            'six_digit': combined_pred_set1_str_final[2:8],
            'two_digit': combined_pred_set1_str_final[0:2]
        })

        # --- Generate Prediction Set 2 (Second Most Probable, based on probabilities) ---
        predicted_digits_set2 = [""] * 8
        for pos_idx in range(8):
            if pos_idx in self.ml_models:
                model = self.ml_models[pos_idx]
                probabilities = model.predict_proba(prediction_features_df)[0] # Get probabilities for all classes (0-9)

                # Get indices of digits sorted by probability in descending order
                sorted_probs_indices = np.argsort(probabilities)[::-1]

                # Pick the digit corresponding to the second highest probability
                if len(sorted_probs_indices) > 1:
                    predicted_digits_set2[pos_idx] = str(sorted_probs_indices[1]) # Second highest probability
                else:
                    predicted_digits_set2[pos_idx] = str(sorted_probs_indices[0]) # Fallback to highest if only one class is predicted
            else:
                predicted_digits_set2[pos_idx] = "?"

        all_predicted_sets.append({
            'set_name': 'ชุดที่ 2 (โอกาสรองลงมา)',
            'six_digit': "".join(predicted_digits_set2[2:8]),
            'two_digit': "".join(predicted_digits_set2[0:2])
        })

        # --- Generate Prediction Set 3 (Diverse/Randomized from Top 3 Probable) ---
        predicted_digits_set3 = [""] * 8
        for pos_idx in range(8):
            if pos_idx in self.ml_models:
                model = self.ml_models[pos_idx]
                probabilities = model.predict_proba(prediction_features_df)[0]

                # Get top N digits and their probabilities
                top_n = 3 # Consider top 3 most probable digits
                # np.argsort returns indices that would sort an array. [-top_n:] gets indices of top N. [::-1] reverses to descending.
                top_digits_indices = np.argsort(probabilities)[-top_n:][::-1]
                top_digits_probs = probabilities[top_digits_indices]

                # Normalize probabilities for weighted random choice
                if np.sum(top_digits_probs) > 0:
                    normalized_probs = top_digits_probs / np.sum(top_digits_probs)
                    chosen_digit = np.random.choice(top_digits_indices, p=normalized_probs)
                    predicted_digits_set3[pos_idx] = str(chosen_digit)
                else:
                    # Fallback to random if no meaningful probabilities (e.g., all zero or sum is zero)
                    predicted_digits_set3[pos_idx] = str(np.random.randint(0, 10))
            else:
                predicted_digits_set3[pos_idx] = "?"

        all_predicted_sets.append({
            'set_name': 'ชุดที่ 3 (สุ่มจาก 3 ตัวเลือกสูงสุด)',
            'six_digit': "".join(predicted_digits_set3[2:8]),
            'two_digit': "".join(predicted_digits_set3[0:2])
        })

        # --- Generate Prediction Set 4 (Opposite Tendency - e.g., least probable) ---
        predicted_digits_set4 = [""] * 8
        for pos_idx in range(8):
            if pos_idx in self.ml_models:
                model = self.ml_models[pos_idx]
                probabilities = model.predict_proba(prediction_features_df)[0]

                # Pick the least probable digit (digit with minimum probability)
                least_probable_digit = np.argmin(probabilities)
                predicted_digits_set4[pos_idx] = str(least_probable_digit)
            else:
                predicted_digits_set4[pos_idx] = "?"

        all_predicted_sets.append({
            'set_name': 'ชุดที่ 4 (ตรงข้าม/โอกาสน้อยสุด)',
            'six_digit': "".join(predicted_digits_set4[2:8]),
            'two_digit': "".join(predicted_digits_set4[0:2])
        })

        print("\n✨ คาดการณ์เสร็จสิ้น. มี 4 ชุดตัวเลขที่แนะนำ:")
        for pred_set in all_predicted_sets:
            print(f"  - {pred_set['set_name']}: รางวัลที่ 1: {pred_set['six_digit']} | เลข 2 ตัวล่าง: {pred_set['two_digit']}")

        return all_predicted_sets

    def display_detailed_analysis(self, row_index):
        """
        Displays detailed flow pattern analysis for a specific target row.
        """
        if not self.analysis_results:
            print("❗ ไม่มีผลการวิเคราะห์ให้แสดงรายละเอียด. โปรดรันการวิเคราะห์ Flow Pattern ก่อน.")
            return

        if not (0 <= row_index < len(self.analysis_results)):
            print(f"❗ Index {row_index} อยู่นอกช่วงข้อมูล. ผลลัพธ์มี {len(self.analysis_results)} แถว (0 ถึง {len(self.analysis_results)-1}).")
            return

        result = self.analysis_results[row_index]

        print(f"\n" + "="*60)
        print(f"--- 🔍 รายละเอียดการวิเคราะห์ Flow Pattern สำหรับงวดเป้าหมายที่ {result['index']+1} ---")
        print(f"    (วันที่: {result['date']}, รางวัลที่ 1: {result['six_digit']}, เลข 2 ตัวล่าง: {result['two_digit']})")
        print("="*60)

        print(f"  - ครอบคลุม Pattern 100%: {'ใช่' if result['all_target_digits_found_at_least_once'] else 'ไม่'}")
        print(f"  - เปอร์เซ็นต์ความครอบคลุม: {result['match_percentage_coverage']:.1f}%")
        print(f"  - เปอร์เซ็นต์ความเข้มข้นการปรากฏ: {result['match_percentage_total_occurrence']:.1f}%")
        print(f"  - จำนวนครั้งที่พบทั้งหมดจากอดีต: {result['total_occurrences_of_target_digits_from_past']}")

        print(f"\n--- 💡 ข้อมูล {self.window_size} งวดก่อนหน้า ({result['preceding_history_rows'][0]['date']} ถึง {result['preceding_history_rows'][-1]['date']}) ---")
        for i, hist_row in enumerate(result['preceding_history_rows']):
            print(f"    งวดอดีตที่ {self.window_size - i}: วันที่ {hist_row['date']} | ร.1: {hist_row['six_digit']} | ล.2: {hist_row['two_digit']}")

        print("\n--- 🔍 การวิเคราะห์การไหลเวียนของแต่ละหลักในงวดเป้าหมาย ---")
        for digit_analysis in result['digit_flow_analysis']:
            target_digit = digit_analysis['target_digit_value']
            target_pos_desc = digit_analysis['target_position_desc']
            total_found = digit_analysis['total_found_in_past_rows']

            print(f"  - หลัก '{target_digit}' ใน '{target_pos_desc}' (พบจากอดีต {total_found} ครั้ง):")
            if digit_analysis['sources']:
                for source in digit_analysis['sources']:
                    print(f"    - มาจาก '{source['source_digit_value']}' ที่ '{source['source_position_desc']}' ในงวดอดีตที่ {source['source_row_relative_index']} (วันที่ {source['source_date']})")
            else:
                print("    (ไม่พบหลักนี้ในงวดอดีต)")


# The `main` function to run the Analyzer
def main():
    """Main function to run the program."""
    # Modified: Instantiate with window_size=7 as requested
    analyzer = LotteryPatternAnalyzer(window_size=7)

    # This method will display a button for the user to select the CSV file.
    if not analyzer.load_data_from_file():
        print("\nการวิเคราะห์ถูกยกเลิกเนื่องจากไม่สามารถโหลดข้อมูลได้")
        return # Exit if file loading fails

    # --- NEW ADDITION: Programmatically add the latest data row ---
    print("\nข้อมูลเพิ่มเติม: กำลังเพิ่มข้อมูลงวดล่าสุดตามที่ผู้ใช้ระบุ...");
    new_draw_date_str = "2025/06/16" # Changed date as per user's implicit next date
    new_draw_six_digit = "507392"
    new_draw_two_digit = "06"

    new_draw_data = {
        'date': datetime.strptime(new_draw_date_str, '%Y/%m/%d'), # Convert string to datetime object
        'six_digit': new_draw_six_digit,
        'two_digit': new_draw_two_digit
    }
    analyzer.data.append(new_draw_data)
    # Ensure data remains sorted after appending (crucial for windowing)
    # Corrected: Removed 'ascending=True' as it's not a valid argument for list.sort()
    analyzer.data.sort(key=lambda x: x['date'])
    print(f"✅ เพิ่มข้อมูลงวดวันที่ {new_draw_date_str} (ร.1: {new_draw_six_digit}, ล.2: {new_draw_two_digit}) ลงในชุดข้อมูลเรียบร้อยแล้ว")
    print(f"   ปัจจุบันมีข้อมูลรวม {len(analyzer.data)} แถว")
    # --- END NEW ADDITION ---

    # Run the pattern analysis after data is successfully loaded and updated.
    results, summary = analyzer.run_analysis()

    # Check if analysis was successful and results exist.
    if results is None or not results:
        print("\nไม่สามารถแสดงผลลัพธ์หรือโต้ตอบได้เนื่องจากไม่มีข้อมูลการวิเคราะห์")
        return

    # Display detailed analysis for the first analyzed row (the oldest target row with enough preceding data).
    print("\n" + "="*60)
    # Modified: Update print statement to reflect window_size
    print(f"✨ แสดงรายละเอียดของงวดแรกที่สามารถวิเคราะห์ได้ (งวดที่เก่าที่สุดที่เริ่มการวิเคราะห์ Pattern ด้วย {analyzer.window_size} งวด) ✨")
    analyzer.display_detailed_analysis(0)

    # Display all rows (target rows) that showed 100% pattern coverage.
    perfect_matches = analyzer.get_perfect_matches()
    if perfect_matches:
        print(f"\n🎉 พบงวดที่ตรง Pattern ครอบคลุม 100% ทั้งหมด ({len(perfect_matches)} งวด):")
        print("-" * 40)
        for match in perfect_matches:
            print(f"▶ งวดที่ {match['index']+1}: วันที่ {match['date']} | รางวัลที่ 1: {match['six_digit']} | เลข 2 ตัวล่าง: {match['two_digit']}")
    else:
        print("\n😔 ไม่พบงวดที่ตรง Pattern ครอบคลับ 100% เลยในข้อมูลที่วิเคราะห์นี้")

    # Generate and display the Flow Matrix
    flow_matrix_df = analyzer.extract_flow_matrix()
    if not flow_matrix_df.empty:
        print("\n📈 Flow Matrix (รูปแบบการไหลเวียนตัวเลข - สรุปความถี่):")
        print("=" * 60)
        # Modified: Update print statement to reflect window_size
        print(f"ตารางนี้แสดงความถี่ที่หลักตัวเลขจากงวดเป้าหมาย (งวดปัจจุบัน)")
        print(f"มีที่มาจากหลักตัวเลขเดียวกันในตำแหน่งใดของ {analyzer.window_size} งวดอดีต")
        print("รูปแบบการจัดเรียง: 'หลักงวดเป้าหมาย' ที่ 'ตำแหน่ง_หลักงวดเป้าหมาย'")
        print("มาจาก 'หลักต้นกำเนิด' ที่ 'ตำแหน่ง_หลักต้นกำเนิด' 'จำนวนครั้งที่ไหล'")
        print("-" * 60)
        # Note: flow_matrix_df now returns the raw flow_data_list converted to DF, not the summarized one
        # So we re-summarize it here for display
        flow_summary_df_display = flow_matrix_df.groupby([
            'หลักงวดเป้าหมาย', 'ตำแหน่ง_หลักงวดเป้าหมาย', 'หลักต้นกำเนิด_จากอดีต', 'ตำแหน่ง_หลักต้นกำเนิด'
        ]).size().reset_index(name='จำนวนครั้งที่ไหล')
        flow_summary_df_display.sort_values(by='จำนวนครั้งที่ไหล', ascending=False, inplace=True)
        print(flow_summary_df_display.head(20).to_string()) # Display top 20 for brevity
        print(f"\nพบรูปแบบการไหลเวียนที่ไม่ซ้ำกันรวม {len(flow_summary_df_display)} แบบ")
        print("คุณสามารถดูตารางเต็มในตัวแปร `flow_matrix_df` ได้")
    else:
        print("\n❗ ไม่สามารถสร้าง Flow Matrix ได้เนื่องจากไม่มีข้อมูลการไหลเวียน")

    # --- NEW: Generate ML Features and Labels, then Train ML Models ---
    features_df, labels_df = analyzer.generate_ml_dataset()
    if not features_df.empty and not labels_df.empty:
        print("\n📊 ตัวอย่าง ML Features (คุณลักษณะสำหรับโมเดล) (5 แถวแรก):")
        print("=" * 60)
        print(features_df.head().to_string())
        print("\n🎯 ตัวอย่าง ML Labels (คำตอบที่ถูกต้องสำหรับโมเดล) (5 แถวแรก):")
        print("=" * 60)
        print(labels_df.head().to_string())
        print(f"\nคุณลักษณะที่สร้างได้ทั้งหมด {features_df.shape[1]} คอลัมน์ และป้ายกำกับ {labels_df.shape[1]} คอลัมน์")

        # Train ML Models after generating the dataset
        analyzer.train_ml_models(features_df, labels_df)

        # Make prediction for the next lottery numbers
        all_predicted_sets = analyzer.predict_next_lottery_numbers()
    else:
        print("\nไม่สามารถดำเนินการสร้าง ML Features และฝึกโมเดลได้เนื่องจากข้อมูลไม่เพียงพอ")
    # --- END NEW ---

    # Loop to allow the user to view details of other rows or exit.
    while True:
        try:
            user_input = input(f"\nต้องการดูรายละเอียดงวดไหนเพิ่มเติม? (0-{len(results)-1}, หรือพิมพ์ 'q' เพื่อออก): ")
            if user_input.lower() == 'q':
                break

            row_index = int(user_input)
            if 0 <= row_index < len(results):
                analyzer.display_detailed_analysis(row_index)
            else:
                print(f"❗ กรุณาใส่ตัวเลขในช่วง 0 ถึง {len(results)-1} เท่านั้น")

        except ValueError:
            print("❗ อินพุตไม่ถูกต้อง กรุณาใส่ตัวเลขหรือ 'q' เพื่อออก")
        except KeyboardInterrupt: # Handle Ctrl+C gracefully
            print("\nออกจากโปรแกรม")
            break

    # Ask the user if they want to export the results to a CSV file.
    export_choice = input("\nต้องการส่งออกผลการวิเคราะห์เป็นไฟล์ CSV หรือไม่? (y/n): ")
    if export_choice.lower() == 'y':
        analyzer.export_results_to_csv()
    else:
        print("การส่งออกไฟล์ CSV ถูกยกเลิก")

    print("\n😊 ขอบคุณที่ใช้งานโปรแกรมวิเคราะห์ Pattern ครับ!")


# Check if this script is being run directly (not imported as a module).
# If so, call the main() function to start the program.
if __name__ == "__main__":
    main()


📊 กรุณาคลิกปุ่มด้านล่างเพื่อเลือกไฟล์ CSV สำหรับวิเคราะห์ (เช่น 'ตารางเปล่า 21.csv')


Saving ตารางเปล่า 21.csv to ตารางเปล่า 21 (1).csv
กำลังโหลดและทำความสะอาดข้อมูลจากไฟล์: ตารางเปล่า 21 (1).csv
✅ โหลดข้อมูลและทำความสะอาดเรียบร้อยแล้ว จำนวน 559 แถว

ข้อมูลเพิ่มเติม: กำลังเพิ่มข้อมูลงวดล่าสุดตามที่ผู้ใช้ระบุ...
✅ เพิ่มข้อมูลงวดวันที่ 2025/06/16 (ร.1: 507392, ล.2: 06) ลงในชุดข้อมูลเรียบร้อยแล้ว
   ปัจจุบันมีข้อมูลรวม 560 แถว

🎯 กำลังวิเคราะห์ Flow Pattern...
ใช้ข้อมูลย้อนหลัง 7 งวดสำหรับการวิเคราะห์ Flow Pattern
✅ วิเคราะห์ข้อมูลได้ 553 แถว

📊 ผลสรุปการทดสอบ Flow Pattern
จำนวนแถว (งวด) ที่นำมาทดสอบ: 553 แถว

--- สรุปความครอบคลุมของหลัก (Percentage of Unique Digits Covered) (จาก 7 งวดอดีต) ---
จำนวนงวดที่หลักตัวเลขปัจจุบัน (8 หลัก) ครบทุกหลักถูกพบใน 7 งวดก่อนหน้า: 548 งวด (99.1%)
จำนวนงวดที่หลักตัวเลขปัจจุบันถูกพบบางส่วน: 5 งวด
จำนวนงวดที่หลักตัวเลขปัจจุบันไม่ถูกพบเลย: 0 งวด
ค่าเฉลี่ยความครอบคลุมของหลัก: 99.9%
ความครอบคลุมต่ำสุด: 87.5%
ความครอบคลุมสูงสุด: 100.0%

--- สรุปความเข้มข้นของการปรากฏ (Total Occurrence Percentage) ---
หมายเหตุ: ค่านี้สามารถเกิน 100% ได้ หากตัวเลข