In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 模型对话测试1

import os
import torch
import warnings
from transformers import AutoTokenizer, AutoModelForCausalLM

# 设置离线模式
os.environ["HF_DATASETS_OFFLINE"] = "1"
os.environ["TRANSFORMERS_OFFLINE"] = "1"

# 忽略警告
warnings.filterwarnings("ignore", category=UserWarning, module="tqdm")
warnings.filterwarnings("ignore", category=FutureWarning)

def load_qwen3_model(model_path="/hy-tmp/Qwen3-14B"):
    """
    离线加载 Qwen3-14B 基础模型的函数
    """
    print(f"正在从 {model_path} 加载 Qwen3-14B 模型...")
    
    # 检查模型路径
    if not os.path.exists(model_path):
        raise FileNotFoundError(f"模型路径不存在: {model_path}")
    
    try:
        # 加载 tokenizer
        tokenizer = AutoTokenizer.from_pretrained(
            model_path, 
            local_files_only=True
        )
        print("Tokenizer 加载成功")
        
        # 添加 pad token（如果不存在）
        if tokenizer.pad_token is None:
            tokenizer.pad_token = tokenizer.eos_token
        
        # 加载基础模型
        model = AutoModelForCausalLM.from_pretrained(
            model_path,
            torch_dtype=torch.float16,
            device_map="auto",
            local_files_only=True,
            low_cpu_mem_usage=True
        )
        print("基础模型加载成功")
        
        print(f"模型设备: {next(model.parameters()).device}")
        
        return tokenizer, model
    except Exception as e:
        print(f"加载失败: {e}")
        raise

def chat_with_model(tokenizer, model, prompt, max_new_tokens=300):
    """
    与模型进行对话
    """
    try:
        # 构造输入格式（根据 Qwen3 模型的要求调整）
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=2048)
        inputs = {k: v.to(model.device) for k, v in inputs.items()}
        
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                temperature=0.7,
                top_p=0.9,
                do_sample=True,
                repetition_penalty=1.1,
                pad_token_id=tokenizer.pad_token_id,
                eos_token_id=tokenizer.eos_token_id
            )
        
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        # 移除输入部分，只返回回答
        response = response[len(prompt):].strip()
        return response
    except Exception as e:
        print(f"生成文本时出错: {e}")
        raise

def interactive_chat(tokenizer, model):
    """
    交互式聊天模式
    """
    print("\n" + "="*60)
    print("Qwen3-14B 模型对话系统")
    print("="*60)
    print("输入 'quit' 或 'exit' 退出对话")
    print("输入 'clear' 清除对话历史")
    print("-"*60)
    
    while True:
        try:
            # 获取用户输入
            user_input = input("\n您: ").strip()
            
            # 检查退出命令
            if user_input.lower() in ['quit', 'exit', '退出']:
                print("感谢使用，再见！")
                break
            
            # 检查清除命令
            if user_input.lower() in ['clear', '清除']:
                print("对话历史已清除")
                continue
            
            # 检查空输入
            if not user_input:
                print("请输入有效内容")
                continue
            
            # 生成回复
            print("模型思考中...")
            response = chat_with_model(tokenizer, model, user_input)
            
            # 显示回复
            print(f"AI: {response}")
            
        except KeyboardInterrupt:
            print("\n\n对话被中断，再见！")
            break
        except Exception as e:
            print(f"处理输入时出错: {e}")
            continue

# 使用示例
if __name__ == "__main__":
    # 设置模型路径
    model_path = "/hy-tmp/Qwen3-14B"  # 修改为你的实际模型路径
    
    try:
        tokenizer, model = load_qwen3_model(model_path)
        print("模型加载完成，可以开始使用")
        print("-" * 50)
        
        # 测试指定的对话问题
        prompts = [
            "你好，请介绍一下地理加权回归算法",
            "什么是空间自相关？",
            "如何计算 Moran's I 指数？",
            "请解释空间权重矩阵的概念"
        ]
        
        print("\n空间统计领域问答测试:")
        print("=" * 50)
        
        for i, prompt in enumerate(prompts, 1):
            print(f"\n问题 {i}: {prompt}")
            print("-" * 40)
            try:
                response = chat_with_model(tokenizer, model, prompt)
                print(f"回答 {i}: {response}")
            except Exception as e:
                print(f"回答 {i} 生成失败: {e}")
        
        print("\n" + "=" * 50)
        print("测试完成")
        print("=" * 50)
        
        # 询问是否进入交互模式
        choice = input("\n是否进入交互式对话模式？(y/n): ").strip().lower()
        if choice in ['y', 'yes', '是']:
            interactive_chat(tokenizer, model)
            
    except Exception as e:
        print(f"模型加载出错: {e}")
        import traceback
        traceback.print_exc()


  from .autonotebook import tqdm as notebook_tqdm


正在从 /hy-tmp/Qwen3-14B 加载 Qwen3-14B 模型...
Tokenizer 加载成功


Loading checkpoint shards: 100%|██████████| 8/8 [00:05<00:00,  1.50it/s]


基础模型加载成功
模型设备: cuda:0
模型加载完成，可以开始使用
--------------------------------------------------

空间统计领域问答测试:

问题 1: 你好，请介绍一下地理加权回归算法
----------------------------------------
回答 1: （GWR）的基本原理和步骤。

当然可以！地理加威回归模型（Geographically Weighted Regression, GWR）是一种用于空间数据分析的统计方法，主要用于处理具有空间异质性（即不同地区之间的关系可能不同）的数据。它扩展了传统的线性回归模型，允许回归系数在空间上变化，从而更准确地捕捉局部模式。
下面我将详细介绍GWR的基本原理、主要特点以及实施步骤：

基本原理：
1. 空间异质性：传统回归模型假设参数在整个研究区域内是恒定的，而GWR认为这些参数可能随着地理位置的不同而变化。
2. 局部回归：GWR通过为每个观测点建立一个局部回归模型，利用该点周围的邻居数据进行拟合，从而得到该点处的局部回归系数。
3. 核函数与带宽选择：为了确定每个点周围的邻居范围，使用核函数来赋予不同距离的数据点不同的权重，通常使用高斯核或双变量指数核等。带宽决定了影响每个局部回归的观测点数量，需要根据数据特征选择合适的值。

主要特点：
- 能够揭示空间非平稳性，即变量之间的关系可能因位置而异
- 提供了对回归系数的空间分布可视化，有助于发现空间模式和异常区域
- 可以与其他空间分析技术结合使用，如空间自相关分析（Moran's I）、热点分析

问题 2: 什么是空间自相关？
----------------------------------------
回答 2: 它有哪些类型？

空间自相关是指在地理空间中，某一现象或变量的值与其邻近区域的现象或变量值之间存在的统计相关性。简单来说，就是地理位置相近的地方，其属性特征也倾向于相似。

空间自相关可以分为以下几种类型：

1. **正空间自相关（Positive Spatial Autocorrelation）**：当相邻地区的观测值趋于相似时，即高值聚集在一起，低值也聚集在一起，这种情况下存在正的空间自相关。例如，一个城市如果经济发达，那么其周围的地区也可能比较富裕。

2


是否进入交互式对话模式？(y/n):  n


In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 模型对话测试2（微调后）

import os
# 设置离线模式
os.environ["HF_DATASETS_OFFLINE"] = "1"
os.environ["TRANSFORMERS_OFFLINE"] = "1"

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from peft import PeftModel

def load_model_offline(model_path):
    """
    离线加载微调后的 LoRA 模型的函数
    """
    print(f"正在从 {model_path} 加载模型...")
    
    # 检查模型路径
    if not os.path.exists(model_path):
        raise FileNotFoundError(f"模型路径不存在: {model_path}")
    
    try:
        # 加载 tokenizer
        tokenizer = AutoTokenizer.from_pretrained(
            model_path, 
            local_files_only=True
        )
        print("Tokenizer 加载成功")
        
        # 获取基础模型路径（假设在上级目录）
        base_model_path = "/hy-tmp/Qwen3-14B"  # 修改为你的基础模型路径
        
        if not os.path.exists(base_model_path):
            raise FileNotFoundError(f"基础模型路径不存在: {base_model_path}")
        
        # 先加载基础模型
        base_model = AutoModelForCausalLM.from_pretrained(
            base_model_path,
            torch_dtype=torch.float16,
            device_map="auto",
            local_files_only=True
        )
        print("基础模型加载成功")
        
        # 在基础模型上加载 LoRA 权重
        model = PeftModel.from_pretrained(
            base_model, 
            model_path,
            torch_dtype=torch.float16,
            device_map="auto"
        )
        print("LoRA 权重加载成功")
        
        # 合并权重（可选）
        model = model.merge_and_unload()
        print("模型合并完成")
        
        print(f"模型设备: {next(model.parameters()).device}")
        
        return tokenizer, model
    except Exception as e:
        print(f"加载失败: {e}")
        raise

def chat_with_model(tokenizer, model, prompt):
    try:
        # 构造完整的提示词格式
        full_prompt = f"### 指令:\n{prompt}\n\n### 回答:\n"
        inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
        
        with torch.no_grad():
            outputs = model.generate(
                **inputs,
                max_new_tokens=300,  # 增加生成长度
                temperature=0.7,
                top_p=0.9,
                do_sample=True,
                repetition_penalty=1.1
            )
        
        response = tokenizer.decode(outputs[0], skip_special_tokens=True)
        # 移除输入部分，只返回回答
        response = response[len(full_prompt):].strip()
        return response
    except Exception as e:
        print(f"生成文本时出错: {e}")
        raise

# 使用示例
if __name__ == "__main__":
    model_path = "/hy-tmp/qwen3-14b-lora-spatial-stats-final"
    
    try:
        tokenizer, model = load_model_offline(model_path)
        print("模型加载完成，可以开始使用")
        print("-" * 50)
        
        # 测试对话
        prompts = [
            "你好，请介绍一下地理加权回归算法",
            "什么是空间自相关？",
            "如何计算 Moran's I 指数？",
            "请解释空间权重矩阵的概念"
        ]
        
        for i, prompt in enumerate(prompts, 1):
            print(f"问题 {i}: {prompt}")
            try:
                response = chat_with_model(tokenizer, model, prompt)
                print(f"回答 {i}: {response}")
            except Exception as e:
                print(f"回答 {i} 生成失败: {e}")
            print("-" * 50)
            
    except Exception as e:
        print(f"模型加载出错: {e}")


  from .autonotebook import tqdm as notebook_tqdm


正在从 /hy-tmp/qwen3-14b-lora-spatial-stats-final 加载模型...
Tokenizer 加载成功


Loading checkpoint shards: 100%|██████████| 8/8 [00:05<00:00,  1.48it/s]


基础模型加载成功
LoRA 权重加载成功
模型合并完成
模型设备: cuda:0
模型加载完成，可以开始使用
--------------------------------------------------
问题 1: 你好，请介绍一下地理加权回归算法
回答 1: 地理加权回归（Geographically Weighted Regression, GWR）是一种用于探索空间数据中局部关系的统计方法。与传统的全局回归模型不同，GWR允许回归系数在空间上变化，从而捕捉到因变量与自变量之间关系的空间异质性。

该算法通过为每个样本点分配一个权重来实现这一目标，权重通常基于样本点与其他观测点之间的距离。离得越近的观测点对当前样本点的影响越大，而距离较远的观测点影响较小。这种方法使得模型能够反映局部区域内的特定模式和特征。

具体来说，GWR通过对每一个位置分别拟合一个线性回归模型，并使用加权最小二乘法进行估计。权重矩阵的选择是关键步骤之一，常用的核函数包括高斯核、双平方核等，这些函数决定了权重随距离衰减的方式。

此外，为了提高计算效率并减少过拟合的风险，可以采用带宽选择技术来确定最优的距离阈值。这一步骤可以通过交叉验证或其他优化准则完成。

总结而言，地理加权回归提供了一种有效的方法来分析具有复杂空间结构的数据集，帮助研究人员更好地理解空间过程中的非平稳性和局部特性。
--------------------------------------------------
问题 2: 什么是空间自相关？
回答 2: 空间自相关是指在地理空间中，某一位置的观测值与邻近位置的观测值之间存在的依赖关系或相似性。具体而言，它描述了空间分布数据中的一个现象：地理位置上相近的事物往往具有相似的特征或属性值。这种现象可以通过统计方法进行量化分析。

例如，在研究某个区域的人口密度时，如果发现相邻地区的人口密度高度相似，则说明存在正的空间自相关；反之，若相邻地区的数值差异较大，则可能表明负的空间自相关。空间自相关的强度和方向对理解地理模式、优化空间建模以及揭示潜在的空间结构至关重要。

为了进一步衡量空间自相关程度，通常使用如Moran’s I指数等统计量来评估观察值与其邻域平均值之间的关联性。此外，考虑到不同距离尺度下可能表现出不同的自相关特性，还需结合半变异函数（variogram