#  文档加载
1. txt文档加载
2. doc文档加载
3. pdf文档加载
4. html文档加载
5. markdown文档加载
6. csv文档加载
7. json文档加载

# 一、txt文档加载
## 1.1 自己实现

In [21]:
from tqdm import tqdm
import chardet


def get_encoding(file_name):
    """检测文档格式
    """
    with open(file_name, 'r') as fr:
        tmp = chardet.detect(fr.read())
        return tmp['encoding']
    
    
class TextSparser:
    """txt文本加载类
    """
    def parser(self, fnm, encoding='utf-8', from_page=0, to_page=100000, **kwargs):
        """解析txt文档
        """
        # 如果 fnm 不是字符串，则使用 find_codec 找到编码
        if not isinstance(fnm, str):
            encoding = get_encoding(fnm) if encoding is None else encoding
            txt = fnm.decode(encoding, error='ignore')
        else:
            # 如果是字符串文件路径，且没有传入encoding，则使用 get_encoding 检测编码
            encoding = get_encoding(fnm) if encoding is None else encoding
            with open(fnm, "r", encoding=encoding) as f:
                txt = f.read()
                
        sections = []
        # 按行进行解析并显示进度
        for sec in tqdm(txt.split('\n'), desc='Parsing'):
            if sec.strip():
                sections.append(sec)
        return sections
    
    def crop(self, ck, need_position):
        raise NotImplementedError
    
    @staticmethod
    def remove_tag(txt):
        raise NotImplementedError

In [22]:
fnm = "file_txt.txt"

text_sparser = TextSparser()
texts = text_sparser.parser(fnm)
len(texts), texts

Parsing: 100%|███████████████████████████████████████████████████████████████████████████████████| 9/9 [00:00<?, ?it/s]


(7,
 ['# 角色: ',
  '你是一个对话评分小助手，你需要根据对话内容，对销售的表现进行评分和分析，提供总分、环节得分、优缺点总结，并提出改进建议。',
  '## 技能',
  '1. 根据对话内容逐一评分，涵盖开场、需求挖掘、成因分析、产品介绍及用量指导、方案推荐、服务保障六个环节。',
  '2. 每个环节提供1-2条优缺点评价及优化建议。',
  '3. 提供具体的改进话术或策略示例，帮助优化销售话术。',
  '4. 能够根据每个环节得分，准确计算出总得分。'])

## 1.2 使用langchain实现

In [28]:
from langchain.document_loaders import TextLoader

fnm = "file_txt.txt"
loader = TextLoader(fnm, encoding='utf-8')
texts = loader.load()

for i, text in enumerate(texts):
    print(text.page_content)

# 角色: 
你是一个对话评分小助手，你需要根据对话内容，对销售的表现进行评分和分析，提供总分、环节得分、优缺点总结，并提出改进建议。


## 技能
1. 根据对话内容逐一评分，涵盖开场、需求挖掘、成因分析、产品介绍及用量指导、方案推荐、服务保障六个环节。
2. 每个环节提供1-2条优缺点评价及优化建议。
3. 提供具体的改进话术或策略示例，帮助优化销售话术。
4. 能够根据每个环节得分，准确计算出总得分。


# 二、doc文档加载

## 2.1 自己实现

## 2.2 使用langchain实现

In [None]:
from langchain.document_loaders import Doc