# 金融情感分析项目 - Google Colab 快速开始

这个notebook专门为Google Colab环境优化。

## 使用步骤：
1. 运行第一个cell（设置环境）
2. 上传数据集到Colab
3. 运行后续cells进行训练和评估


## 步骤1: 环境设置


In [None]:
# ============================================
# Google Colab 环境设置
# ============================================

import os
import sys

# 检测是否在Colab中
try:
    import google.colab
    IN_COLAB = True
    print("✓ 检测到Google Colab环境")
except:
    IN_COLAB = False
    print("✓ 本地环境")

# 设置项目路径
if IN_COLAB:
    # 如果项目还没上传，需要先上传或克隆
    # 选项1: 从GitHub克隆（如果已上传）
    if not os.path.exists('/content/financial-sentiment-project'):
        print("项目不存在，请先上传项目文件或从GitHub克隆")
        print("克隆命令: !git clone <your-repo-url>")
        PROJECT_ROOT = '/content'  # 临时设置
    else:
        PROJECT_ROOT = '/content/financial-sentiment-project'
        os.chdir(PROJECT_ROOT)
        print(f"✓ 项目根目录: {PROJECT_ROOT}")
else:
    # 本地环境
    PROJECT_ROOT = os.getcwd()
    if os.path.basename(PROJECT_ROOT) == 'notebooks':
        PROJECT_ROOT = os.path.dirname(PROJECT_ROOT)
        os.chdir(PROJECT_ROOT)

# 安装依赖
print("\n正在安装依赖...")
!pip install -q pandas numpy scikit-learn nltk matplotlib seaborn joblib datasets

# 下载NLTK数据
import nltk
try:
    nltk.download('punkt', quiet=True)
    nltk.download('stopwords', quiet=True)
    print("✓ NLTK数据已下载")
except:
    print("⚠ NLTK数据下载失败，但可以继续")

# 添加src到路径
src_path = os.path.join(PROJECT_ROOT, 'src')
if os.path.exists(src_path) and src_path not in sys.path:
    sys.path.insert(0, src_path)
    print(f"✓ 已添加src到路径: {src_path}")

# 导入项目模块
try:
    from dataset_loader import load_dataset
    from preprocess import preprocess_batch
    from model import build_model, get_all_top_features
    from label_quality import detect_misclassifications, detect_ambiguous_predictions, detect_noisy_labels
    print("✓ 项目模块导入成功")
except Exception as e:
    print(f"⚠ 导入错误: {e}")
    print("请确保项目文件已正确上传")

print("\n" + "="*60)
print("设置完成！")
print("="*60)


## 步骤2: 上传数据集
