In [1]:
# Core data science packages
!pip install numpy pandas scipy matplotlib seaborn

# PDF processing

!pip install PyMuPDF

# Machine Learning & NLP
!pip install transformers
!pip install pythainlp

# Financial data
!pip install yfinance

# Image processing
!pip install Pillow
!pip install pytesseract

# HTTP requests
!pip install requests

# Optional: Install all packages in one line
!pip install numpy pandas scipy matplotlib seaborn PyMuPDF transformers pythainlp yfinance Pillow pytesseract requests

Collecting pandas
  Downloading pandas-2.2.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (89 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m89.9/89.9 kB[0m [31m1.3 MB/s[0m eta [36m0:00:00[0mta [36m0:00:01[0m
[?25hCollecting scipy
  Downloading scipy-1.14.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.8/60.8 kB[0m [31m6.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting matplotlib
  Downloading matplotlib-3.9.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Downloading contour

In [2]:
import os

os.environ['TYPHOON_API_KEY'] = 'sk-oHvFDpRkCC1dCMwOvMqInFpCRWJqvgk3sVASJ6k00ys3fVl8'

In [3]:
print('test')

test


In [5]:
# -*- coding: utf-8 -*-
import fitz  # PyMuPDF
import re
from transformers import pipeline
import requests
import numpy as np
import pandas as pd
from typing import Dict, Optional, Tuple, List, Any
from dataclasses import dataclass
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import os
from datetime import datetime
from PIL import Image
import pytesseract
import io

import pythainlp
from pythainlp.tokenize import word_tokenize
from pythainlp.util import normalize

warnings.filterwarnings('ignore')

sns.set(style='whitegrid')

# Data Classes
@dataclass
class FinancialMetrics:
    basic_metrics: Dict[str, float]
    technical_indicators: Dict[str, Any]
    risk_metrics: Dict[str, float]
    statistical_metrics: Dict[str, Any]

@dataclass
class IndustryAnalysis:
    industry_type: str
    key_indicators: List[str]
    study_topics: List[str]
    peer_companies: List[str]
    industry_metrics: Dict[str, float]

@dataclass
class FinancialData:
    symbol: str
    prices: np.ndarray
    returns: np.ndarray
    dates: np.ndarray
    volume: np.ndarray
    market_cap: float
    sector: str
    financial_metrics: Optional[FinancialMetrics] = None

class MarketData:
    def __init__(self, api_key: str):
        self.market_index = "^SET"  # ปรับให้ตรงกับ SET Index
        self.cache = {}
        self.api_key = api_key
        self.base_url = 'https://www.setsmart.com/api/listed-company-api'
        self.headers = {'api-key': self.api_key}

    def get_stock_data(self, symbol: str, start_date: str, end_date: str) -> Optional[FinancialData]:
        print(f"\nดึงข้อมูลหุ้นสำหรับ {symbol}")
        try:
            if symbol in self.cache:
                print(f"ใช้ข้อมูลที่แคชไว้สำหรับ {symbol}")
                return self.cache[symbol]

            # ดึงข้อมูลราคาหุ้นจาก SET SMART API
            url = f'{self.base_url}/eod-price-by-symbol'
            params = {
                'symbol': symbol,
                'startDate': start_date,
                'endDate': end_date,
                'adjustedPriceFlag': 'Y'
            }
            response = requests.get(url, headers=self.headers, params=params)
            data_json = response.json()

            if not data_json:
                raise ValueError(f"ไม่พบข้อมูลสำหรับ {symbol}")

            # สร้าง DataFrame จากข้อมูลที่ได้
            df = pd.DataFrame(data_json)
            df['trading_date'] = pd.to_datetime(df['trading_date'])
            df.sort_values('trading_date', inplace=True)

            # ดึงข้อมูลเพิ่มเติม เช่น Market Cap, Sector จากอีก API หนึ่ง (ถ้ามี)
            # ในที่นี้จะใส่ค่าเป็น 0 หรือ 'Unknown' ไปก่อน
            market_cap = 0  # ต้องดึงจาก API ที่ให้ข้อมูลนี้
            sector = 'Unknown'  # ต้องดึงจาก API ที่ให้ข้อมูลนี้

            data = FinancialData(
                symbol=symbol,
                prices=df['close_price'].values,
                returns=df['close_price'].pct_change().dropna().values,
                dates=df['trading_date'].values,
                volume=df['total_volume'].values,
                market_cap=market_cap,
                sector=sector
            )

            self.cache[symbol] = data
            print(f"ดึงข้อมูลสำเร็จสำหรับ {symbol}")
            return data

        except Exception as e:
            print(f"Error fetching data for {symbol}: {e}")
            return None

class AdvancedFinancialAnalyzer:
    def __init__(self, api_key: Optional[str] = None):
        self.api_key = api_key
        print("กำลังโหลดโมเดลจำแนกประเภท...")

        # ปรับปรุงการโหลดโมเดลและ tokenizer
        self.classifier = pipeline(
            "zero-shot-classification",
            model="joeddav/xlm-roberta-large-xnli",
            tokenizer="joeddav/xlm-roberta-large-xnli",
            device='cuda' if torch.cuda.is_available() else 'cpu'
        )

        if self.api_key:
            self.market_data = MarketData(api_key=self.api_key)
        else:
            self.market_data = None

    def extract_text_from_pdf(self, file_path: str) -> Optional[str]:
        """Extract and clean text from PDF"""
        print(f"\nกำลังดึงข้อความจากไฟล์ PDF: {file_path}")
        try:
            text = ""
            with fitz.open(file_path) as pdf:
                for page_num in range(len(pdf)):
                    page = pdf[page_num]
                    page_text = page.get_text()
                    if page_text.strip():
                        # ถ้ามีข้อความอยู่แล้ว
                        text += page_text
                    else:
                        # ถ้าไม่มีข้อความ ให้ใช้ OCR
                        pix = page.get_pixmap()
                        img_data = pix.tobytes("png")
                        img = Image.open(io.BytesIO(img_data))
                        ocr_text = pytesseract.image_to_string(img, lang='tha+eng')
                        text += ocr_text
            cleaned_text = self._clean_text(text) if text else None
            print("\nข้อความหลังทำความสะอาด:")
            print(cleaned_text[:500])  # แสดงข้อความที่ทำความสะอาดแล้ว (500 ตัวอักษรแรก)
            return cleaned_text
        except Exception as e:
            print(f"PDF extraction error: {e}")
            return None

    def _clean_text(self, text: str) -> str:
        """Clean and normalize text while preserving important financial information"""
        print("\nกำลังทำความสะอาดข้อความ...")
        # Remove extra whitespace
        text = re.sub(r'\s+', ' ', text)

        # Preserve financial numbers and symbols and Thai characters
        # Remove unwanted characters but preserve Thai characters and common punctuation
        text = re.sub(r'[^\w\s$.,%-]', '', text, flags=re.UNICODE)

        # Normalize numerical formats
        text = re.sub(r'(\d),(\d)', r'\1\2', text)
        print("ทำความสะอาดข้อความสำเร็จ")
        return text.strip()

    def find_stock_symbol(self, text: str) -> Optional[str]:
        """Find stock symbol using regex"""
        print("\nกำลังค้นหาสัญลักษณ์หุ้นจากข้อความ...")
        # ใช้ regex เพื่อค้นหาสัญลักษณ์หุ้นในข้อความ
        pattern = r'\b[A-Z]{1,5}\b'
        matches = re.findall(pattern, text)
        if matches:
            symbol = matches[0]
            print(f"\nพบสัญลักษณ์หุ้น: {symbol}")
            return symbol
        else:
            print("ไม่พบสัญลักษณ์หุ้นในข้อความ")
            return None

    def analyze_company(self, text: str) -> Tuple[str, Dict[str, Any]]:
        """Comprehensive company analysis"""
        # Try to find stock symbol
        symbol = self.find_stock_symbol(text)
        if not symbol:
            print("ไม่สามารถระบุสัญลักษณ์หุ้นได้")
            stock_data = None
        else:
            # Get market data
            # กำหนดวันที่เริ่มต้นและสิ้นสุดสำหรับการดึงข้อมูล
            end_date = datetime.now().strftime('%Y-%m-%d')
            start_date = (datetime.now() - pd.DateOffset(years=1)).strftime('%Y-%m-%d')
            stock_data = self.market_data.get_stock_data(symbol, start_date, end_date)
            if stock_data is None:
                print(f"ไม่สามารถดึงข้อมูลหุ้น {symbol} ได้")

        # Industry Classification
        industry = self._classify_industry(text)

        # เพิ่มการแนะนำหลังจากจำแนกประเภทธุรกิจ
        print(f"\nบริษัทนี้อยู่ในอุตสาหกรรม: {industry}")
        print("คุณควรศึกษาปัจจัยเฉพาะของอุตสาหกรรมนี้เพิ่มเติมเพื่อการตัดสินใจลงทุน")

        # Calculate financial metrics if stock data is available
        if stock_data:
            financial_metrics = self._calculate_financial_metrics(stock_data)
        else:
            financial_metrics = None

        # Industry analysis
        industry_analysis = self._analyze_industry_specifics(text, industry, symbol)

        # Get AI recommendations (ถ้ามีการใช้งาน Typhoon API)
        ai_analysis = {}

        return industry, {
            'symbol': symbol,
            'financial_metrics': financial_metrics,
            'industry_analysis': industry_analysis,
            'ai_recommendations': ai_analysis,
            'stock_data': stock_data
        }

    def _classify_industry(self, text: str) -> str:
        """Classify company industry using zero-shot classification"""
        print("\nกำลังจำแนกประเภทอุตสาหกรรม...")
        dynamic_labels = ['ธนาคาร', 'ก่อสร้าง', 'เทคโนโลยี', 'สุขภาพ', 'พลังงาน', 'อสังหาริมทรัพย์',
                          'การขนส่ง', 'การสื่อสาร', 'การเกษตร', 'อาหาร', 'การท่องเที่ยว',
                          'ค้าปลีก', 'การผลิต', 'การเงิน', 'สื่อ', 'บันเทิง', 'เคมีภัณฑ์']
        result = self.classifier(
            sequences=text[:512],
            candidate_labels=dynamic_labels,
            hypothesis_template="นี่คือข้อความเกี่ยวกับ {}.",
            multi_label=False
        )
        industry = result['labels'][0]
        print(f"\nประเภทอุตสาหกรรมที่จำแนกได้: {industry}")
        return industry

    def _calculate_financial_metrics(self, stock_data: FinancialData) -> FinancialMetrics:
        """Calculate comprehensive financial metrics"""
        print("\nกำลังคำนวณตัวชี้วัดทางการเงิน...")
        prices = stock_data.prices
        returns = stock_data.returns

        financial_metrics = FinancialMetrics(
            basic_metrics=self._calculate_basic_metrics(stock_data),
            technical_indicators=self._calculate_technical_indicators(prices),
            risk_metrics=self._calculate_risk_metrics(returns),
            statistical_metrics=self._calculate_statistical_metrics(returns)
        )
        print("\nคำนวณตัวชี้วัดทางการเงินสำเร็จ")
        return financial_metrics

    def _calculate_basic_metrics(self, stock_data: FinancialData) -> Dict[str, float]:
        """Calculate basic financial ratios"""
        print(" - กำลังคำนวณอัตราส่วนทางการเงินพื้นฐาน...")
        try:
            current_price = stock_data.prices[-1]
            eps = self._get_eps(stock_data.symbol)
            bvps = self._get_book_value(stock_data.symbol)
            net_income = self._get_net_income(stock_data.symbol)
            equity = self._get_equity(stock_data.symbol)
            basic_metrics = {
                'price': current_price,
                'market_cap': stock_data.market_cap,
                'pe_ratio': self._safe_calc(lambda: current_price / eps if eps != 0 else None),
                'pb_ratio': self._safe_calc(lambda: current_price / bvps if bvps != 0 else None),
                'roe': self._safe_calc(lambda: net_income / equity if equity != 0 else None)
            }
            print(f"\nอัตราส่วนทางการเงินพื้นฐาน: {basic_metrics}")
            return basic_metrics
        except Exception as e:
            print(f"Error calculating basic metrics: {e}")
            return {}

    def _calculate_technical_indicators(self, prices: np.ndarray) -> Dict[str, Any]:
        """Calculate technical analysis indicators"""
        print(" - กำลังคำนวณตัวชี้วัดทางเทคนิค...")
        try:
            technical_indicators = {
                'rsi': self._calculate_rsi(prices),
                'macd': self._calculate_macd(prices),
                'bollinger_bands': self._calculate_bollinger_bands(prices),
                'moving_averages': {
                    'ma20': np.mean(prices[-20:]),
                    'ma50': np.mean(prices[-50:]),
                    'ma200': np.mean(prices[-200:])
                }
            }
            print(f"\nตัวชี้วัดทางเทคนิค: {technical_indicators}")
            return technical_indicators
        except Exception as e:
            print(f"Error calculating technical indicators: {e}")
            return {}

    def _calculate_risk_metrics(self, returns: np.ndarray) -> Dict[str, float]:
        """Calculate risk and performance metrics"""
        print(" - กำลังคำนวณตัวชี้วัดความเสี่ยง...")
        try:
            risk_metrics = {
                'volatility': np.std(returns) * np.sqrt(252),
                'var_95': np.percentile(returns, 5),
                'cvar_95': np.mean(returns[returns <= np.percentile(returns, 5)]),
                'sharpe_ratio': np.mean(returns) / np.std(returns) * np.sqrt(252),
                'sortino_ratio': np.mean(returns) / np.std(returns[returns < 0]) * np.sqrt(252)
            }
            print(f"\nตัวชี้วัดความเสี่ยง: {risk_metrics}")
            return risk_metrics
        except Exception as e:
            print(f"Error calculating risk metrics: {e}")
            return {}

    def _calculate_statistical_metrics(self, returns: np.ndarray) -> Dict[str, Any]:
        """Calculate statistical properties"""
        print(" - กำลังคำนวณตัวชี้วัดสถิติ...")
        try:
            # Stationarity test
            adf_stat, adf_pvalue = stats.adfuller(returns)[:2]

            # Normality tests
            shapiro_stat, shapiro_pvalue = stats.shapiro(returns)

            statistical_metrics = {
                'stationarity': {
                    'adf_statistic': adf_stat,
                    'adf_pvalue': adf_pvalue
                },
                'normality': {
                    'shapiro_statistic': shapiro_stat,
                    'shapiro_pvalue': shapiro_pvalue
                },
                'skewness': stats.skew(returns),
                'kurtosis': stats.kurtosis(returns)
            }
            print(f"\nตัวชี้วัดสถิติ: {statistical_metrics}")
            return statistical_metrics
        except Exception as e:
            print(f"Error calculating statistical metrics: {e}")
            return {}

    def _analyze_industry_specifics(self, text: str, industry: str, symbol: Optional[str]) -> Dict[str, Any]:
        """Analyze industry-specific factors"""
        print("\nกำลังวิเคราะห์ปัจจัยเฉพาะของอุตสาหกรรม...")
        peer_companies = self._find_similar_companies(industry, symbol)
        if symbol and symbol in peer_companies:
            peer_companies.remove(symbol)  # เอาบริษัทที่เราวิเคราะห์ออก

        return {
            'study_topics': self._get_study_topics(industry),
            'peer_companies': peer_companies,
        }

    def _find_similar_companies(self, industry: str, symbol: Optional[str]) -> List[str]:
        """Find similar companies in the same industry"""
        print("\nกำลังหาบริษัทที่คล้ายกันในอุตสาหกรรมเดียวกัน...")
        # สำหรับตัวอย่างนี้ จะคืนค่าเป็นลิสต์ของสัญลักษณ์หุ้นที่กำหนดเอง
        industry_peers = {
            'ธนาคาร': ['BBL', 'KBANK', 'SCB'],
            'พลังงาน': ['PTT', 'PTTEP', 'TOP'],
            # เพิ่มเติมตามต้องการ
        }
        return industry_peers.get(industry, [])

    def _get_study_topics(self, industry: str) -> List[str]:
        """Get study topics based on industry"""
        topics = {
            'ธนาคาร': ['การจัดการความเสี่ยงทางการเงิน', 'กฎระเบียบของธนาคารกลาง'],
            'เทคโนโลยี': ['นวัตกรรมใหม่', 'การแข่งขันในตลาด'],
            # เพิ่มหัวข้อสำหรับอุตสาหกรรมอื่นๆ ตามต้องการ
        }
        return topics.get(industry, ['ศึกษาภาพรวมของอุตสาหกรรมเพิ่มเติม'])

    # ฟังก์ชัน Helper
    def _safe_calc(self, func):
        """Safely execute calculation"""
        try:
            return func()
        except:
            return None

    # ฟังก์ชันสำหรับดึงข้อมูลทางการเงินจาก SET SMART API
    def _get_eps(self, symbol: str) -> float:
        """Fetch EPS for the stock symbol"""
        url = f'{self.market_data.base_url}/financial-data-and-ratio-by-symbol'
        params = {
            'symbol': symbol,
            'startYear': datetime.now().year,
            'startQuarter': 1,
            'endYear': datetime.now().year,
            'endQuarter': 4
        }
        response = requests.get(url, headers=self.market_data.headers, params=params)
        data_json = response.json()
        if data_json:
            eps = data_json[0].get('eps', 0)
            return float(eps)
        else:
            return 0.0

    def _get_book_value(self, symbol: str) -> float:
        """Fetch Book Value per share"""
        url = f'{self.market_data.base_url}/financial-data-and-ratio-by-symbol'
        params = {
            'symbol': symbol,
            'startYear': datetime.now().year,
            'startQuarter': 1,
            'endYear': datetime.now().year,
            'endQuarter': 4
        }
        response = requests.get(url, headers=self.market_data.headers, params=params)
        data_json = response.json()
        if data_json:
            bvps = data_json[0].get('book_value_per_share', 0)
            return float(bvps)
        else:
            return 0.0

    def _get_net_income(self, symbol: str) -> float:
        """Fetch Net Income"""
        url = f'{self.market_data.base_url}/financial-data-and-ratio-by-symbol'
        params = {
            'symbol': symbol,
            'startYear': datetime.now().year,
            'startQuarter': 1,
            'endYear': datetime.now().year,
            'endQuarter': 4
        }
        response = requests.get(url, headers=self.market_data.headers, params=params)
        data_json = response.json()
        if data_json:
            net_income = data_json[0].get('net_profit', 0)
            return float(net_income)
        else:
            return 0.0

    def _get_equity(self, symbol: str) -> float:
        """Fetch Total Equity"""
        url = f'{self.market_data.base_url}/financial-data-and-ratio-by-symbol'
        params = {
            'symbol': symbol,
            'startYear': datetime.now().year,
            'startQuarter': 1,
            'endYear': datetime.now().year,
            'endQuarter': 4
        }
        response = requests.get(url, headers=self.market_data.headers, params=params)
        data_json = response.json()
        if data_json:
            total_equity = data_json[0].get('shareholders_equity', 0)
            return float(total_equity)
        else:
            return 0.0

    def _calculate_rsi(self, prices: np.ndarray, period: int = 14) -> float:
        """Calculate Relative Strength Index"""
        delta = np.diff(prices)
        up = delta.clip(min=0)
        down = -1 * delta.clip(max=0)
        avg_gain = np.mean(up[-period:])
        avg_loss = np.mean(down[-period:])
        rs = avg_gain / avg_loss if avg_loss != 0 else 0
        rsi = 100 - (100 / (1 + rs))
        return rsi

    def _calculate_macd(self, prices: np.ndarray) -> float:
        """Calculate Moving Average Convergence Divergence"""
        exp1 = pd.Series(prices).ewm(span=12, adjust=False).mean()
        exp2 = pd.Series(prices).ewm(span=26, adjust=False).mean()
        macd = exp1 - exp2
        signal = macd.ewm(span=9, adjust=False).mean()
        return macd.iloc[-1] - signal.iloc[-1]

    def _calculate_bollinger_bands(self, prices: np.ndarray, period: int = 20) -> Dict[str, float]:
        """Calculate Bollinger Bands"""
        sma = np.mean(prices[-period:])
        std = np.std(prices[-period:])
        upper_band = sma + (2 * std)
        lower_band = sma - (2 * std)
        return {'upper_band': upper_band, 'lower_band': lower_band}

    def generate_investment_report(self, file_path: str):
        """Generate comprehensive investment report"""
        text = self.extract_text_from_pdf(file_path)
        if not text:
            print("ไม่สามารถวิเคราะห์เอกสารได้")
            return

        try:
            industry, analysis = self.analyze_company(text)
            self._display_results(industry, analysis)
        except Exception as e:
            print(f"เกิดข้อผิดพลาดในการวิเคราะห์: {e}")

    def _display_results(self, industry: str, analysis: Dict[str, Any]):
        """Display results including plots"""
        symbol = analysis.get('symbol', 'N/A')
        financial_metrics = analysis.get('financial_metrics', None)
        industry_analysis = analysis.get('industry_analysis', {})
        ai_recommendations = analysis.get('ai_recommendations', {})
        stock_data = analysis.get('stock_data', None)

        # แสดงสัญลักษณ์หุ้น
        print(f"\nสัญลักษณ์หุ้น: {symbol}")

        # แสดงประเภทธุรกิจ
        print(f"\nประเภทธุรกิจ: {industry}")

        # แสดงคำแนะนำจาก AI (ถ้ามี)
        print("\nคำแนะนำจาก AI:")
        print(ai_recommendations.get('summary', 'ไม่มีคำแนะนำ'))

        # แสดงหัวข้อที่ควรศึกษาเพิ่มเติม
        print("\nหัวข้อที่ควรศึกษาเพิ่มเติมเกี่ยวกับธุรกิจนี้:")
        for topic in industry_analysis.get('study_topics', []):
            print(f"- {topic}")

        # แสดงบริษัทในอุตสาหกรรมเดียวกันที่น่าสนใจ
        print("\nบริษัทในอุตสาหกรรมเดียวกันที่น่าสนใจ:")
        peer_companies = industry_analysis.get('peer_companies', [])
        for company in peer_companies:
            print(f"- {company}")

        # แสดงกราฟราคาหุ้นของบริษัทในอุตสาหกรรมเดียวกัน
        if stock_data:
            self._plot_peer_companies([symbol] + peer_companies)
        else:
            print("ไม่มีข้อมูลราคาหุ้นสำหรับการแสดงกราฟ")

    def _plot_peer_companies(self, symbols: List[str]):
        """Plot stock prices of peer companies"""
        print("\nกำลังแสดงกราฟราคาหุ้นของบริษัทในอุตสาหกรรมเดียวกัน...")
        plt.figure(figsize=(12, 6))
        for symbol in symbols:
            data = self.market_data.get_stock_data(symbol, start_date='2022-01-01', end_date=datetime.now().strftime('%Y-%m-%d'))
            if data:
                plt.plot(data.dates, data.prices, label=symbol)
        plt.title('Stock prices of companies in the same industry')
        plt.xlabel('Date')
        plt.ylabel('Price (THB)')
        plt.legend()
        plt.show()

# การใช้งาน
if __name__ == "__main__":
    import torch

    # ตั้งค่า API Key ของ SET SMART API
    api_key = '65322b83-2986-4471-8efd-43a761d49aad'  # ใช้ API Key ที่คุณมี

    # สร้างอินสแตนซ์ของ AdvancedFinancialAnalyzer
    analyzer = AdvancedFinancialAnalyzer(api_key=api_key)

    # ระบุเส้นทางไปยังไฟล์ PDF ของคุณ
    file_path = "k.pdf"  # เปลี่ยนเป็นเส้นทางไฟล์ PDF ที่คุณต้องการวิเคราะห์

    # ตรวจสอบว่าไฟล์ PDF มีอยู่หรือไม่
    if not os.path.isfile(file_path):
        print(f"ไม่พบไฟล์ PDF ที่ระบุ: {file_path}")
    else:
        analyzer.generate_investment_report(file_path)


กำลังโหลดโมเดลจำแนกประเภท...


Some weights of the model checkpoint at joeddav/xlm-roberta-large-xnli were not used when initializing XLMRobertaForSequenceClassification: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


ImportError: 
 requires the protobuf library but it was not found in your environment. Checkout the instructions on the
installation page of its repo: https://github.com/protocolbuffers/protobuf/tree/master/python#installation and follow the ones
that match your environment. Please note that you may need to restart your runtime after installation.
