# 数据科学项目需求说明

## 项目目标
开发一个能够处理多格式数据并支持跨数据库查询的软件系统，主要功能包括：
- 将CSV格式的期刊元数据导入图数据库
- 将JSON格式的期刊分类数据导入关系型数据库
- 提供跨两种数据库的联合查询功能

## 核心需求

### 1. 数据模型实现
- 实现基础实体类 `IdentifiableEntity` 及其子类：
  - `Journal` (期刊)
  - `Category` (分类)
  - `Area` (领域)
- 所有类必须包含UML图中定义的`get`和`has`方法
- 构造函数不接收参数，属性通过setter方法设置

### 2. 数据上传功能
- **CSV处理模块** (`JournalUploadHandler`)：
  - 解析DOAJ期刊数据CSV文件
  - 处理多语言字段（用", "分隔）
  - 将数据上传至图数据库(如Blazegraph)

- **JSON处理模块** (`CategoryUploadHandler`)：
  - 解析Scimago期刊分类JSON文件
  - 构建关系型数据库表结构
  - 将数据上传至SQLite等关系型数据库

### 3. 查询功能实现
- **基础查询**：
  - 单数据库查询（期刊/分类/领域）
  - 支持按标题、出版商、许可证等条件过滤

- **高级查询** (`FullQueryEngine`)：
  - 跨数据库联合查询
  - 支持复杂条件组合（如"具有Q1四分位分类且使用CC BY许可的期刊"）

### 4. 技术规范
- 必须严格遵循提供的UML类图设计
- 所有查询方法返回特定类的实例对象（而非原始数据）
- 支持多次调用数据上传方法
- 处理空输入等边界情况

## 输入输出要求
- **输入**：
  - CSV文件：期刊元数据（含多语言字段）
  - JSON文件：期刊分类和领域信息

- **输出**：
  - 查询结果返回对应类的实例对象
  - 对象需包含完整属性及关联对象

## 开发约束
1. 使用Python实现
2. 数据库选择：
   - 图数据库：Blazegraph（推荐Docker部署）
   - 关系型数据库：SQLite
3. 必须通过预提供的合规性测试
4. 代码结构需包含：
   - 数据模型类
   - 上传处理器
   - 查询处理器
   - 查询引擎

## 验收标准
1. 完整实现UML中定义的所有类和方法
2. 正确处理多语言字段和关联关系
3. 查询结果对象属性完整可用
4. 通过基础测试套件的所有测试用例

## 示例场景

In [None]:
# 初始化
cat = CategoryUploadHandler()
cat.setDbPathOrUrl("relational.db")
cat.pushDataToDb("data/scimago.json")

jou = JournalUploadHandler()
jou.setDbPathOrUrl("http://localhost:9999/blazegraph/sparql")
jou.pushDataToDb("data/doaj.csv")

# 查询示例
que = FullQueryEngine()
result = que.getJournalsInCategoriesWithQuartile(
    {"Artificial Intelligence"}, 
    {"Q1"}
)