In [1]:
import pandas as pd
from g4f.client import Client
import re
client = Client()

In [2]:
def load_data(file_path: str) -> pd.DataFrame:
    """
    加載 CSV 文件並處理錯誤行。
    """
    try:
        return pd.read_csv(file_path, on_bad_lines="skip", encoding="utf-8")
    except pd.errors.ParserError as e:
        raise Exception(f"CSV 文件解析錯誤：{e}")
    except Exception as e:
        raise Exception(f"讀取數據時發生錯誤：{e}")



In [3]:
def generate_summary_statistics(data):
    """
    生成數據的描述性統計量。

    Args:
        data (DataFrame): 輸入的數據。

    Returns:
        DataFrame: 描述性統計量。
    """
    return data.describe(include='all')



In [4]:
def construct_prompt(user_input, summary_stats):
    """
    根據用戶輸入與數據統計生成提示。

    Args:
        user_input (str): 用戶的查詢。
        summary_stats (DataFrame): 數據的描述性統計量。

    Returns:
        tuple: 系統提示與用戶提示。
    """
    system_prompt = (
        "你是一位專業的數據科學家，擅長分析數據並從中提取見解。"
        "以下是一些描述性統計數據，請根據這些數據提供深入分析和建議：\n"
        "1. 描述數據的整體特性，例如平均值、標準差、數據分佈等。\n"
        "2. 尋找可能的異常值或數據問題，並評估其對分析結果的影響。\n"
        "3. 如果有類別型數據，請分析其分佈特性和可能的相關性。\n"
        "4. 根據數據，提供有助於業務決策的具體建議，例如潛在的改進方向或應關注的特定領域。\n"
        "5. 將您的分析結論簡潔清楚地表達，並建議下一步的數據收集或分析方向。")
    


    user_prompt = (
        f"數據的描述性統計如下：\n{summary_stats}\n"
        f"請根據這些數據回答以下問題：{user_input}"
    )

    "請分析以下股票數據，並給出專業的分析報告"

    return system_prompt, user_prompt


In [5]:
def generate_report(user_input, csv_file_path):
    """
    基於自然語言查詢和CSV數據生成分析報告。

    Args:
        user_input (str): 用戶查詢。
        csv_file_path (str): CSV文件路徑。

    Returns:
        str: 分析報告或錯誤信息。
    """
    data = load_data(csv_file_path)
    if isinstance(data, str):  # 返回錯誤信息時
        return data
    summary_stats = generate_summary_statistics(data)
    system_prompt, user_prompt = construct_prompt(user_input, summary_stats)
    client = Client()
    try:
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt}
            ],
            temperature=0.1
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        return f"生成報告時發生錯誤：{e}"


In [6]:
if __name__ == "__main__":
    csv_file = r".\csv.ingredient\tsmc_operating_profit_margin_2010_2023.csv"
    user_input = "請分析數據並提供詳細見解和建議。"

    report = generate_report(user_input, csv_file)
    print("生成的報告：")
    print(report)



New g4f version: 0.4.0.2 (current: 0.3.9.7) | pip install -U g4f
生成的報告：
根據提供的描述性統計數據，我們可以進行以下分析和建議：

### 1. 數據的整體特性
- **平均值**：操作利潤率的平均值為38.38%，這表明在觀察期間內，公司的利潤表現相對穩定。
- **標準差**：標準差為2.33%，顯示出利潤率的變異性相對較小，數據分佈較為集中。
- **數據分佈**：
  - 最小值為33.60%，最大值為42.81%，顯示出利潤率在這段時間內有一定的波動。
  - 四分位數顯示，25%的數據低於36.39%，50%的數據（中位數）為38.63%，75%的數據低於40.09%。這表明大多數數據集中在38%到40%之間。

### 2. 異常值或數據問題
- 在這組數據中，沒有明顯的異常值（outliers），因為所有的利潤率都在合理範圍內（33.60%到42.81%）。不過，進一步的可視化（如箱型圖）可以幫助確認是否存在潛在的異常值。
- 數據的完整性看起來良好，沒有缺失值（count = 56），這對於分析結果的可靠性是有利的。

### 3. 類別型數據分析
- **季度分佈**：數據中有四個季度（Q1, Q2, Q3, Q4），其中Q1的出現頻率最高（14次），這可能表明公司在第一季度的業務表現較為穩定或有季節性影響。
- 建議進一步分析不同季度的利潤率變化，看看是否存在季節性趨勢或特定季度的表現異常。

### 4. 業務決策建議
- **潛在改進方向**：考慮分析不同季度的利潤率，特別是Q1的表現，找出成功的因素並在其他季度中應用。
- **關注特定領域**：如果未來的數據顯示某些季度的利潤率顯著低於平均水平，則應進一步調查原因，並制定相應的改進策略。
- **持續監測**：建議定期收集和分析利潤率數據，以便及時發現趨勢變化並做出相應的業務調整。

### 5. 下一步的數據收集或分析方向
- **數據收集**：建議收集更長時間範圍內的數據，以便進行時間序列分析，了解利潤率的長期趨勢。
- **深入分析**：可以考慮進行回歸分析，探索影響利潤率的其他因素（如市場環境、成本結構等），以獲得更深入的見解。

總結來說，這組數據顯示出公司在觀察期間內的利潤率表現穩定，但仍需進一步分析季度間