In [2]:
import { Ollama } from "@langchain/community/llms/ollama";
import { HumanMessage } from "@langchain/core/messages";
import { StringOutputParser } from "@langchain/core/output_parsers";

const ollama = new Ollama({
  baseUrl: "http://localhost:11434", 
  model: "qwen:7b", 
});

const outputPrase = new StringOutputParser();

const simpleChain = ollama.pipe(outputPrase);
const stream = await simpleChain.invoke([
     new HumanMessage("什么事大模型")
])

console.log(stream);

大模型（Large Language Model），通常是指那些参数量庞大的语言生成或理解模型。这些模型在训练过程中学习了大量的文本数据，从而具备了较高的理解和生成能力。

近年来，大型预训练模型如BERT、GPT-2等的出现引领了大模型的研究热潮。大模型的应用场景广泛，包括但不限于自然语言处理任务（如机器翻译、问答系统）、内容创作、智能对话等。


In [3]:
import * as pdfParse from "pdf-parse";
import { PDFLoader } from "langchain/document_loaders/fs/pdf";

const loader = new PDFLoader("data/1.pdf");
const pdfs = await loader.load();

console.log(pdfs);

[
  Document {
    pageContent: [32m"温馨提示：\n"[39m +
      [32m"1、将《组织机构认证授权书》（在模板第二页）打印；\n"[39m +
      [32m"2、填写单位名称与日期并加盖组织机构公章；\n"[39m +
      [32m"*注：授权书中加盖的公章需和单位名称保持一致，且必须为公章不能是财务章或\n"[39m +
      [32m"人事章等。\n"[39m +
      [32m"3、扫"[39m... 12 more characters,
    metadata: {
      source: [32m"data/1.pdf"[39m,
      pdf: {
        version: [32m"1.10.100"[39m,
        info: {
          PDFFormatVersion: [32m"1.4"[39m,
          IsAcroFormPresent: [33mfalse[39m,
          IsXFAPresent: [33mfalse[39m,
          Producer: [32m"qys-sign® 1.0.0 ©2013-2020"[39m,
          CreationDate: [32m"D:20230704151941+08'00'"[39m,
          ModDate: [32m"D:20230704151941+08'00'"[39m
        },
        metadata: [1mnull[22m,
        totalPages: [33m2[39m
      },
      loc: { pageNumber: [33m1[39m }
    }
  },
  Document {
    pageContent: [32m"组织机构认证授权书\n"[39m +
      [32m" \n"[39m +
      [32m"本单位 酒鬼酒股份有限公司  （91433100183806380W） 授权 罗庆祥 （证\n"[39m +
      [3

In [4]:
import { TextLoader } from "langchain/document_loaders/fs/text";
const loader = new TextLoader("data/2.txt");

const docs = await loader.load();
console.log(docs);

[
  Document {
    pageContent: [32m"鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜外"[39m... 2150 more characters,
    metadata: { source: [32m"data/2.txt"[39m }
  }
]


In [6]:
const loader = new PDFLoader("data/1.pdf", { splitPages: false });
const pdf = await loader.load();
console.log(pdf);

[
  Document {
    pageContent: [32m"温馨提示：\n"[39m +
      [32m"1、将《组织机构认证授权书》（在模板第二页）打印；\n"[39m +
      [32m"2、填写单位名称与日期并加盖组织机构公章；\n"[39m +
      [32m"*注：授权书中加盖的公章需和单位名称保持一致，且必须为公章不能是财务章或\n"[39m +
      [32m"人事章等。\n"[39m +
      [32m"3、扫"[39m... 566 more characters,
    metadata: {
      source: [32m"data/1.pdf"[39m,
      pdf: {
        version: [32m"1.10.100"[39m,
        info: {
          PDFFormatVersion: [32m"1.4"[39m,
          IsAcroFormPresent: [33mfalse[39m,
          IsXFAPresent: [33mfalse[39m,
          Producer: [32m"qys-sign® 1.0.0 ©2013-2020"[39m,
          CreationDate: [32m"D:20230704151941+08'00'"[39m,
          ModDate: [32m"D:20230704151941+08'00'"[39m
        },
        metadata: [1mnull[22m,
        totalPages: [33m2[39m
      }
    }
  }
]


In [7]:
import { DirectoryLoader } from "langchain/document_loaders/fs/directory";

const loader = new DirectoryLoader(
  "./data",
  {
    ".pdf": (path) => new PDFLoader(path, { splitPages: false }),
    ".txt": (path) => new TextLoader(path),
  }
);
const docs = await loader.load();
console.log(docs);

[
  Document {
    pageContent: [32m"鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜外"[39m... 2150 more characters,
    metadata: { source: [32m"/Users/luoqingxiang/Documents/Deno/data/2.txt"[39m }
  },
  Document {
    pageContent: [32m"温馨提示：\n"[39m +
      [32m"1、将《组织机构认证授权书》（在模板第二页）打印；\n"[39m +
      [32m"2、填写单位名称与日期并加盖组织机构公章；\n"[39m +
      [32m"*注：授权书中加盖的公章需和单位名称保持一致，且必须为公章不能是财务章或\n"[39m +
      [32m"人事章等。\n"[39m +
      [32m"3、扫"[39m... 566 more characters,
    metadata: {
      source: [32m"/Users/luoqingxiang/Documents/Deno/data/1.pdf"[39m,
      pdf: {
        version: [32m"1.10.100"[39m,
        info: {
          PDFFormatVersion: [32m"1.4"[39m,
          IsAcroFormPresent: [33mfalse[39m,
          IsXFAPresent: [33mfalse[39m,
          Producer: [32m"qys-sign® 1.0.0 ©2013-2020"[39m,
          CreationDate: [32m"D:20230704151941+08'00'"[39m,
          ModDate: [32m"D:20230704151941+08'00'"[39m

In [11]:
import { GithubRepoLoader } from "langchain/document_loaders/web/github";
import ignore from "ignore";

const loader = new GithubRepoLoader(
    "https://github.com/RealKai42/qwerty-learner",
    { 
        branch: "master",
        recursive: false, 
        unknown: "warn", 
        ignorePaths: ["*.md", "yarn.lock", "*.json"],
        accessToken: "123"
    }
  );

const docs = await loader.load();
console.log(docs);

Failed to process directory: , Error: Unable to fetch repository files: 401 {"message":"Bad credentials","documentation_url":"https://docs.github.com/rest"}


Error: Unable to fetch repository files: 401 {"message":"Bad credentials","documentation_url":"https://docs.github.com/rest"}

In [1]:
import "cheerio";
import { CheerioWebBaseLoader } from "langchain/document_loaders/web/cheerio";

const loader = new CheerioWebBaseLoader(
  "https://kaiyi.cool/blog/github-copilot"
);

const docs = await loader.load();
docs;

[
  Document {
    pageContent: [32m"             🕶 Kai           如何使用 github copilot 完成 50% 的日常工作 Nov 25, 2023    LLM  chinese     \n"[39m +
      [32m"原文来"[39m... 5539 more characters,
    metadata: { source: [32m"https://kaiyi.cool/blog/github-copilot"[39m }
  }
]

In [2]:
console.log(docs[0].pageContent);

             🕶 Kai           如何使用 github copilot 完成 50% 的日常工作 Nov 25, 2023    LLM  chinese     
原文来自于 x 推文，所以保留了原始分段的风格


0. 一些基础信息

github copilot 是 gpt3 针对代码场景优化而来的 Codex 模型，其基础性能不如 gpt4，但在代码场景效果更好
copilot 不是银弹，并不是一秒解决 50% 的工作，而是将 50% 的工作时间替换成了 10% 的 prompt/chat 时间
认清 copilot 的定位，其是一个副驾驶的角色，自己的思维方式要从“如何去做这件事” => “如何激发 copilot 去做这件事”
尝试 ai-native 的开发方式，从自己编码 + ai copilot 到自己编写 prompt、copilot 编码，然后自己去进行修改
copilot 已经非常强，但还是一个发布并不久的工具，深度使用需要思考如何更贴近它的思维和使用方式，也会遇到很多 bug
再强调一下，copilot 不是银弹，不是你告诉他需求他就能够输出完美方案的 bot，你只是把编码时间换成了 更少 prompt 时间
不要编程这件事妄自菲薄，不要高看也不要低看，一个学习过所有开源代码的 llm 编程能力是很强的。但依旧需要人类去“激活”和引导，且人类也有其独特的优势


1. 基本使用思路

把自己的视野拉高，让 copilot 去做更低维度的事情
copilot 是极度廉价劳动力，是可以让他去帮你试错、可以多开浪费他的思考来节约自己的思考时间
问 copilot 的问题，自己需要至少有鉴别基础质量的能力，从而能够对他的输出取其精华。在不擅长的领域完全信赖会导致非常严重的问题
不要懒得写长的 prompt，从 llm 的原理来说，你给的 context 越多，他越容易召回到你想要的知识，并给你需要的答案，把他看作一个知识丰富的人类助手，用给人类讲话的耐心去写 prompt。你会发现这事并不会花你太多时间


2.变量命名
这是非常基础但是很多人浪费了很多时间的点。你可以把你想要的这个 变量/类 想要承担的任务和一些想法给到 copilot chat，然他输出你需要的命名
并且，copilot 的劳动力极度廉价，灵活应用 “

In [4]:
import { SerpAPILoader } from "langchain/document_loaders/web/serpapi";

const apiKey = "abc";
const question = "什么 github copliot";
const loader = new SerpAPILoader({ q: question, apiKey });
const docs = await loader.load();
docs;

Error: Failed to load search results from SerpAPI due to: Invalid API key. Your API key should be here: https://serpapi.com/manage-api-key

In [6]:
import { RecursiveCharacterTextSplitter } from "langchain/text_splitter";
import { TextLoader } from "langchain/document_loaders/fs/text";

const loader = new TextLoader("data/2.txt");
const docs = await loader.load();

const splitter = new RecursiveCharacterTextSplitter({
    chunkSize: 64,
    chunkOverlap: 0,
  });

const splitDocs = await splitter.splitDocuments(docs);

In [7]:
splitDocs

[
  Document {
    pageContent: [32m"鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜外站着，热热的喝了休息；倘肯多花一文，便可以买一碟盐煮笋，"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"或者茴香豆，做下酒物了，如果出到十几文，那就能买一样荤菜，但这些顾客，多是短衣帮，大抵没有这样阔绰。只有穿长衫的，才踱进店面隔壁"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"的房子里，要酒要菜，慢慢地坐喝。"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"我从十二岁起，便在镇口的咸亨酒店里当伙计，掌柜说，我样子太傻，怕侍候不了长衫主顾，就在外面做点事罢。外面的短衣主顾，虽然容易说"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { fro

In [8]:
const splitter = new RecursiveCharacterTextSplitter({
    chunkSize: 64,
    chunkOverlap: 16,
  });

const splitDocs = await splitter.splitDocuments(docs);
splitDocs

[
  Document {
    pageContent: [32m"鲁镇的酒店的格局，是和别处不同的：都是当街一个曲尺形的大柜台，柜里面预备着热水，可以随时温酒。做工的人，傍午傍晚散了工，每每花四"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"工的人，傍午傍晚散了工，每每花四文铜钱，买一碗酒，——这是二十多年前的事，现在每碗要涨到十文，——靠柜外站着，热热的喝了休息；倘"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"—靠柜外站着，热热的喝了休息；倘肯多花一文，便可以买一碟盐煮笋，或者茴香豆，做下酒物了，如果出到十几文，那就能买一样荤菜，但这些"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"十几文，那就能买一样荤菜，但这些顾客，多是短衣帮，大抵没有这样阔绰。只有穿长衫的，才踱进店面隔壁的房子里，要酒要菜，慢慢地坐喝。"[39m,
    metadata: { source: [32m"data/2.txt"[39m, loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m"我从十二岁起，便在镇口的咸亨酒店里当伙计，掌柜说，我样子太傻，怕侍候不了长衫主顾，就在外面做点事罢。外面的短衣主顾，虽然容易说"[39m,
    metadata: { sou

In [9]:
import { SupportedTextSplitterLanguages } from "langchain/text_splitter";

// 查询支持的语言
console.log(SupportedTextSplitterLanguages); 

[
  [32m"cpp"[39m,      [32m"go"[39m,
  [32m"java"[39m,     [32m"js"[39m,
  [32m"php"[39m,      [32m"proto"[39m,
  [32m"python"[39m,   [32m"rst"[39m,
  [32m"ruby"[39m,     [32m"rust"[39m,
  [32m"scala"[39m,    [32m"swift"[39m,
  [32m"markdown"[39m, [32m"latex"[39m,
  [32m"html"[39m,     [32m"sol"[39m
]


In [10]:
import { TokenTextSplitter } from "langchain/text_splitter";

const text = "I stand before you today the representative of a family in grief, in a country in mourning before a world in shock.";

const splitter = new TokenTextSplitter({
  chunkSize: 10,
  chunkOverlap: 0,
});

const docs = await splitter.createDocuments([text]);
docs;

[
  Document {
    pageContent: [32m"I stand before you today the representative of a family"[39m,
    metadata: { loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m" in grief, in a country in mourning before a"[39m,
    metadata: { loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  },
  Document {
    pageContent: [32m" world in shock."[39m,
    metadata: { loc: { lines: { from: [33m1[39m, to: [33m1[39m } } }
  }
]