add (ChinaXiv.js) 新增中国科学院科技论文预发布平台 (#184) #224

jiaojiaodubai · 2023-10-16T11:17:32Z

No description provided.

jiaojiaodubai · 2023-11-08T14:33:35Z

#184 已完成。
有一点需要补充的就是，ChinaXiv导出的bib文件编码是GBK（虽然它注释写Encoding=UTF-8），Connector默认以UTF-8来解码返回的内容，于是就出现了乱码。UTF-8解码之后，原来的信息已经被污染，没有办法还原。我尝试过向服务器请求Bytes，但没有对应的响应。两周前我已经发邮件给ChinaXiv的运营方反馈这个问题，他们至今没有回应。
现在的暂时是用页面抓取的内容来填字段，如果这个问题能解决的话，extra里面就不会有乱码了。

yfdyh000 · 2023-11-08T18:57:25Z

#184 已完成。有一点需要补充的就是，ChinaXiv导出的bib文件编码是GBK（虽然它注释写Encoding=UTF-8），Connector默认以UTF-8来解码返回的内容，于是就出现了乱码。UTF-8解码之后，原来的信息已经被污染，没有办法还原。我尝试过向服务器请求Bytes，但没有对应的响应。两周前我已经发邮件给ChinaXiv的运营方反馈这个问题，他们至今没有回应。现在的暂时是用页面抓取的内容来填字段，如果这个问题能解决的话，extra里面就不会有乱码了。

function isGBK(arrayBuffer) {
  const dataView = new DataView(arrayBuffer);
  const length = dataView.byteLength;

  let hasASCII = false;
  let hasGBK = false;

  for (let i = 0; i < length; i++) {
    const byte = dataView.getUint8(i);

    // 检查是否为ASCII字符
    if (byte <= 0x7F) {
      hasASCII = true;
    }

    // 检查是否为GBK字符
    if ((byte >= 0x81 && byte <= 0xFE) && ((byte >= 0x40 && byte <= 0x7E) || (byte >= 0x80 && byte <= 0xFE))) {
      if (i + 1 >= length) {
        return false;
      }
      const nextByte = dataView.getUint8(i + 1);
      if (!(nextByte >= 0x40 && nextByte <= 0xFE && nextByte !== 0x7F && nextByte !== 0xFF)) {
        return false;
      }
      hasGBK = true;
      i++;
    }
  }

  return hasASCII && hasGBK;
}

function GBKtoUTF8(gbkArrayBuffer) {
  const gbkUint8Array = new Uint8Array(gbkArrayBuffer);
  const gbkDecoder = new TextDecoder('gbk');
  const gbkString = gbkDecoder.decode(gbkUint8Array);
  return gbkString
}

		let bibResp = await request(bibUrl, {responseType: 'arraybuffer'});
		Z.debug(isGBK(bibResp.body));
		Z.debug(GBKtoUTF8(bibResp.body));

经测可解码。检测部分出自AI，我不保证可靠性。
request的首个参数不是请求方法，不知为何与文档不同。
没有研究错误处理等问题。

jiaojiaodubai · 2023-11-09T08:12:02Z

request的请求参数是可选的，里面的每一个属性也是可选的，这不矛盾。
我之前尝试过这样获取，但那时无法得到ArrayBuffer，刚才一试居然可以了，我会在下一次commit中修复这个问题。

jiaojiaodubai23 and others added 15 commits October 11, 2023 04:01

完成基本功能

c61e885

移除已弃用的doPodt；完善条目信息；增加测试案例；解耦部分函数

0ac366a

补充说明信息

6f558fd

不再分割中文名；更新测试案例

f9f0814

删去无用预设

ffa78ae

更正条目类型；更新测试案例

5a9f25b

优化代码风格

2907bff

规范target正则表达式

3627482

修复中文名残留空格

2d55aec

通过ESLint检测；更新测试案例

811d891

匹配两个新域名；修复无翻译字段引起的错误；修复翻译字段被自动转换；替换两个测试案例

b60cee4

修补一处代码风格问题

35be4dc

Merge branch 'master' into ChinaXiv

cf717ca

Merge branch 'l0o0:master' into ChinaXiv

1a18e43

Merge branch 'master' into ChinaXiv

b595110

l0o0 merged commit a3204f3 into l0o0:master Nov 8, 2023

jiaojiaodubai mentioned this pull request Nov 9, 2023

fix (ChinaXiv.js) 修复extra乱码；增加备用抓取方案；优化姓名清洗算法；更新测试案例 #230

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

add (ChinaXiv.js) 新增中国科学院科技论文预发布平台 (#184) #224

add (ChinaXiv.js) 新增中国科学院科技论文预发布平台 (#184) #224

jiaojiaodubai commented Oct 16, 2023

jiaojiaodubai commented Nov 8, 2023

yfdyh000 commented Nov 8, 2023

jiaojiaodubai commented Nov 9, 2023

add (ChinaXiv.js) 新增中国科学院科技论文预发布平台 (#184) #224

add (ChinaXiv.js) 新增中国科学院科技论文预发布平台 (#184) #224

Conversation

jiaojiaodubai commented Oct 16, 2023

jiaojiaodubai commented Nov 8, 2023

yfdyh000 commented Nov 8, 2023

jiaojiaodubai commented Nov 9, 2023