# 数据处理
一、数据集类型和重要性*

二、数据处理常见流程***

三、数据处理工具与框架**

四、常见的数据处理案例分析*

五、扩展学习*

## 一、数据集类型和重要性

### （一）数据集类型

数据集作为大模型的基础，根据数据的组织形式和性质可以分为不同类型。

数据集主要分为**结构化数据集**和**非结构化数据集**两类。
结构化数据集是指数据以明确定义的格式存储，每条数据都按照相同的数据结构进行组织，常见的形式包括表格、数据库等；而非结构化数据集则是指数据没有固定的格式，包括文本、图像、音频等形式。

![数据集类型2](images/数据集类型2.png)
![数据集类型](images/数据集类型.png)

### （二）数据处理的重要性

在大模型的训练与应用中，数据处理是关键环节。数据的处理方式直接影响模型的性能、准确性与泛化能力。合理的数据处理能让模型更好地学习知识，减少错误与偏差。

- 数据**数量**的重要性

过拟合是指模型在训练数据上表现良好，但在未见过的数据上表现不佳。通常发生在模型的复杂度过高、训练数据有限或不平衡的情况下。通过使用大量的数据进行训练，可以减少过拟合的风险，使模型更好地适应各种陌生的输入，并在不同的情况下保持稳定的性能。

- 数据**多样性**的重要性

大模型的目标是能够适应各种不同的输入，并对未见过的数据进行准确的预测，多样化的数据可以使模型在各种任务和领域中表现出更好的泛化能力。如果是简单的同类型数据反馈，单条数据反馈和十条同类型数据反馈，虽然在数据的数量上增加了 10 倍，但模型的智能并没有得到拓展和增加。

- 数据**质量**的重要性

大模型“幻觉”指模型生成不正确、无意义或不真实的文本的现象，造成这一现象的主要原因是大模型缺乏高质量数据支撑。高质量的数据集可以帮助模型更好地理解和捕捉不同的概念、语义和语法结构。

## 二、数据处理常见流程

数据收集 → 数据清洗 → 数据标注  数据划分

![数据处理流程](images/数据处理流程.png)

### （一）数据收集

1、数据来源
- 公开数据集
  
![公开数据集1](images/公开数据集1.png)
![公开数据集2](images/公开数据集2.png)

示例：Kaggle竞赛数据集
https://www.kaggle.com/datasets
![Kaggle竞赛数据集](images/Kaggle竞赛数据集.png)

- 自有数据

企业或特定组织在日常运营过程中会积累大量具有自身业务特色的数据，如电商平台所拥有的用户购买记录、浏览行为数据，社交媒体平台所记录的用户发布内容、社交互动信息等。

**优势**：自有数据与业务紧密相关，能够精准反映特定场景下的用户行为和需求，用于训练模型时可使其更好地贴合实际应用场景。

**注意事项**：在收集和使用自有数据时，需要严格遵守相关法律法规，特别是涉及用户隐私方面的规定，要对数据进行妥善的脱敏、加密等处理，确保数据安全合规。

2、数据规模与多样性
- 数据规模：大规模数据有助于模型学习到更丰富的语言模式和知识，但也要注意数据的质量和相关性，避免过多冗余或低质量数据影响模型训练效率和性能。
- 多样性：增强模型的泛化能力，避免模型在训练过程中过度依赖于某一类特定的数据特征。

### （二）数据清洗

1、噪声数据处理
- 乱码、特殊字符

对于非ASCII字符集中的一些不明符号序列或者不符合文本编码规范的字符组合，通过正则表达式的匹配和替换操作，将其从数据中有效去除。

In [11]:
# 多行文本噪声处理示例
import re

def clean_noise_data(text):
    # 使用正则表达式去除非ASCII字符和一些特殊字符
    cleaned_text = re.sub(r'[^\x00-\x7F]+|[^a-zA-Z0-9\s]', '', text)
    return cleaned_text

# 示例多行文本列表
original_texts = [
    "This is a sample text with some noise: \x80\x81\x82乱码1 and special characters like @#$%^&*()",
    "Another line with noise: \x83\x84\x85乱码2 and more special characters!@#$%^&*()",
    "A third line of text 乱码3 with noise: @#$%^&*()"
]
print("Original texts:")
for original_text in original_texts:
    print(original_text)

# 调用清理函数
cleaned_texts = [clean_noise_data(text) for text in original_texts]
print("\nCleaned texts:")
for cleaned_text in cleaned_texts:
    print(cleaned_text)

Original texts:
This is a sample text with some noise: 乱码1 and special characters like @#$%^&*()
Another line with noise: 乱码2 and more special characters!@#$%^&*()
A third line of text 乱码3 with noise: @#$%^&*()

Cleaned texts:
This is a sample text with some noise 1 and special characters like 
Another line with noise 2 and more special characters
A third line of text 3 with noise 


- 重复数据
  
可以运用代码快速准确地识别出重复的数据项，并将其从数据集中筛除。
另外，一些数据库管理系统也提供了便捷的去重功能，可利用其对存储在数据库中的数据进行重复数据清理操作，确保数据的唯一性和简洁性，提高数据质量。

In [12]:
def remove_duplicates(data):
    seen = set()
    result = []
    for item in data:
        hash_value = hash(item)
        if hash_value not in seen:
            seen.add(hash_value)
            result.append(item)
    return result

# 示例数据，包含重复元素
data = ["apple", "banana", "apple", "cherry", "banana", "banana", "date"]
print("Original data:")
print(data)

# 调用函数去除重复数据
filtered_data = remove_duplicates(data)
print("\nFiltered data:")
print(filtered_data)

Original data:
['apple', 'banana', 'apple', 'cherry', 'banana', 'banana', 'date']

Filtered data:
['apple', 'banana', 'cherry', 'date']


2、低质量数据过滤  
- 基于分类器的方法：训练二元分类器，以高质量文本为正例，候选数据为负例，识别和过滤低质量数据。但这种方法可能会误删一些有价值的方言、口语等文本，导致语料库多样性减少。  

In [13]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import numpy as np

def generate_dummy_data(high_quality_size, low_quality_size):
    # 生成高质量数据，这里简单假设高质量数据是一些长句子
    high_quality_data = [
        "This is a high-quality sentence with rich information. " * np.random.randint(3, 10) for _ in range(high_quality_size)
    ]
    # 生成低质量数据，这里简单假设低质量数据是一些短句子
    low_quality_data = [
        "Short sentence." * np.random.randint(1, 3) for _ in range(low_quality_size)
    ]
    # 组合成数据集，并创建标签
    data = high_quality_data + low_quality_data
    labels = [1] * len(high_quality_data) + [0] * len(low_quality_data)
    return data, labels

def train_binary_classifier(data, labels):
    # 使用 TF-IDF 向量化文本数据
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(data)
    # 划分训练集和测试集
    X_train, X_test, y_train, y_test = train_test_split(
        X, labels, test_size=0.2, random_state=42)
    # 使用逻辑回归作为二元分类器
    classifier = LogisticRegression()
    classifier.fit(X_train, y_train)
    # 评估分类器性能
    accuracy = classifier.score(X_test, y_test)
    print(f"Classifier accuracy: {accuracy}")
    return classifier, vectorizer

def filter_low_quality_data(classifier, vectorizer, candidate_data):
    # 向量化候选数据
    X_candidate = vectorizer.transform(candidate_data)
    # 预测候选数据的质量
    predictions = classifier.predict(X_candidate)
    # 过滤低质量数据
    filtered_data = [
        candidate_data[i] for i in range(len(candidate_data)) if predictions[i] == 1
    ]
    return filtered_data

# 生成示例数据
data, labels = generate_dummy_data(high_quality_size=100, low_quality_size=50)
# 训练二元分类器
classifier, vectorizer = train_binary_classifier(data, labels)

# 假设的候选数据
candidate_data = [
    "This is a relatively long and informative sentence.",
    "Short and simple sentence.",
    "Another long and meaningful statement.",
    "Short one."
]
# 过滤候选数据
filtered_data = filter_low_quality_data(classifier, vectorizer, candidate_data)
print("\nFiltered data:")
for data in filtered_data:
    print(data)

Classifier accuracy: 1.0

Filtered data:
This is a relatively long and informative sentence.
Another long and meaningful statement.


- 启发式方法：采用基于语言的过滤（删除与任务无关的语言文本）、基于度量的过滤（如使用困惑度检测不自然句子）、基于统计的过滤（根据语料库统计特征衡量文本质量）和基于关键字的过滤（根据特定关键字集移除噪声或无用元素，如 HTML 标签、超链接、样板文本和冒犯性词汇）等规则排除低质量文本。 

In [14]:
import re
import math
from collections import Counter

def remove_irrelevant_texts(texts, task_keywords):
    """
    基于语言的过滤：删除与任务无关的语言文本
    :param texts: 输入的文本列表
    :param task_keywords: 与任务相关的关键字列表
    :return: 过滤后的文本列表
    """
    filtered_texts = []
    for text in texts:
        contains_keyword = any(keyword in text for keyword in task_keywords)
        if contains_keyword:
            filtered_texts.append(text)
    return filtered_texts

def perplexity(sentence, language_model):
    """
    基于度量的过滤：使用困惑度检测不自然句子
    :param sentence: 要计算困惑度的句子
    :param language_model: 语言模型（这里假设是一个简单的概率分布）
    :return: 句子的困惑度
    """
    tokens = sentence.split()
    N = len(tokens)
    log_prob_sum = 0
    for i in range(1, N):
        bigram = (tokens[i - 1], tokens[i])
        if bigram in language_model:
            log_prob_sum += math.log(language_model[bigram])
        else:
            log_prob_sum += math.log(1e-10)  # 避免 log(0)
    perplexity_value = math.exp((-1 / N) * log_prob_sum)
    return perplexity_value

def filter_by_perplexity(texts, language_model, threshold=100):
    """
    根据困惑度过滤文本
    :param texts: 输入的文本列表
    :param language_model: 语言模型
    :param threshold: 困惑度阈值
    :return: 过滤后的文本列表
    """
    filtered_texts = []
    for text in texts:
        perp = perplexity(text, language_model)
        if perp < threshold:
            filtered_texts.append(text)
    return filtered_texts

def statistical_filtering(texts, word_count_threshold=5):
    """
    基于统计的过滤：根据语料库统计特征衡量文本质量
    :param texts: 输入的文本列表
    :param word_count_threshold: 单词数量阈值
    :return: 过滤后的文本列表
    """
    filtered_texts = []
    for text in texts:
        word_count = len(text.split())
        if word_count >= word_count_threshold:
            filtered_texts.append(text)
    return filtered_texts

def remove_keywords(texts, keywords):
    """
    基于关键字的过滤：根据特定关键字集移除噪声或无用元素
    :param texts: 输入的文本列表
    :param keywords: 要移除的关键字列表
    :return: 过滤后的文本列表
    """
    filtered_texts = []
    for text in texts:
        for keyword in keywords:
            text = re.sub(keyword, '', text)
        filtered_texts.append(text)
    return filtered_texts

# 示例数据
texts = [
    "This is a relevant text for the task. It contains useful information.",
    "This is an irrelevant text with some noise like <html> and http://example.com",
    "A short sentence.",
    "Another relevant text that is quite long and informative."
]

# 与任务相关的关键字
task_keywords = ["relevant", "useful", "informative"]

# 简单的语言模型（这里仅为示例，实际应用中需要从大量数据中训练得到）
language_model = {
    ("This", "is"): 0.2,
    ("is", "a"): 0.3,
    ("a", "relevant"): 0.1
}

# 要移除的关键字
keywords_to_remove = ["<html>", "http://\S+"]

# 基于语言的过滤
filtered_texts_1 = remove_irrelevant_texts(texts, task_keywords)
print("Filtered by language relevance:")
print(filtered_texts_1)

# 基于度量的过滤
filtered_texts_2 = filter_by_perplexity(texts, language_model)
print("\nFiltered by perplexity:")
print(filtered_texts_2)

# 基于统计的过滤
filtered_texts_3 = statistical_filtering(texts)
print("\nFiltered by word count:")
print(filtered_texts_3)

# 基于关键字的过滤
filtered_texts_4 = remove_keywords(texts, keywords_to_remove)
print("\nFiltered by keywords:")
print(filtered_texts_4)

Filtered by language relevance:
['This is a relevant text for the task. It contains useful information.', 'This is an irrelevant text with some noise like <html> and http://example.com', 'Another relevant text that is quite long and informative.']

Filtered by perplexity:
[]

Filtered by word count:
['This is a relevant text for the task. It contains useful information.', 'This is an irrelevant text with some noise like <html> and http://example.com', 'Another relevant text that is quite long and informative.']

Filtered by keywords:
['This is a relevant text for the task. It contains useful information.', 'This is an irrelevant text with some noise like  and ', 'A short sentence.', 'Another relevant text that is quite long and informative.']


### （三）数据标注

1. 标注任务类型
- NLP领域

**分类标注**：例如情感分类（积极、消极、中性）、主题分类（体育、科技、娱乐等）

**实体标注**：标注文本中的人名、地名、组织机构名等实体

**关系标注**：标注实体之间的关系，如父子关系、因果关系等

- CV领域

**目标检测标注**：在图像或视频中标记特定目标物体的边界框，如汽车、行人、动物等，明确目标位置与范围。
![目标检测任务](images/目标检测.png)

**语义分割标注**：将图像中每个像素点划分到特定类别，如道路、建筑物、植被等不同类别在图像上精确区分标注。
![语义分割任务](images/语义分割.png)

**关键点标注**：标注目标物体的关键特征点，例如在人体姿态识别中，标注人体关节点位置。
![关键点检测任务](images/关键点检测.png)

2. 标注方法

- 人工标注
  
**NLP领域**：由专业人员标注，标注质量高，但成本大、效率低。

**CV领域**：专业人员借助标注工具，细致标注图像或视频，能保证准确性，但耗费大量人力、时间成本，效率受限。例如人工手动绘制目标检测的边界框，或逐像素进行语义分割标注。

- 半自动化标注
  
**NLP领域**：先利用预训练模型或规则初步标注，再由人工审核修正。

**CV领域**：先通过基于深度学习的目标检测、分割等模型初步标注图像，如自动生成可能的边界框或分割区域，然后人工检查与修正标注结果，可提高标注效率并保证一定质量。

In [5]:
!pip install nltk

[0mLooking in indexes: http://mirrors.tencentyun.com/pypi/simple
[0m

In [15]:
import nltk
# from nltk.tokenize import word_tokenize

def semi_automatic_topic_annotation(texts):
    """
    主题分类的半自动化标注函数
    使用简单的规则进行初步标注
    """
    results = []
    for text in texts:
        if 'sports' in text.lower() or 'game' in text.lower():
            results.append((text, '体育'))
        elif 'technology' in text.lower() or 'tech' in text.lower():
            results.append((text, '科技'))
        elif 'entertainment' in text.lower() or 'movie' in text.lower() or 'music' in text.lower():
            results.append((text, '娱乐'))
        else:
            results.append((text, '其他'))
    return results

def semi_automatic_sentiment_annotation(texts):
    """
    情感分类的半自动化标注函数
    使用简单的规则进行初步标注
    """
    results = []
    for text in texts:
        if 'love' in text.lower() or 'like' in text.lower() or 'great' in text.lower() or 'amazing' in text.lower():
            results.append((text, '积极'))
        elif 'hate' in text.lower() or 'dislike' in text.lower() or 'boring' in text.lower() or 'terrible' in text.lower():
            results.append((text, '消极'))
        else:
            results.append((text, '中性'))
    return results

def manual_review(results, annotation_type):
    """
    人工审核和修正函数
    对初步标注结果进行人工审核和修正
    """
    reviewed_results = []
    for i, (text, label) in enumerate(results):
        print(f"Text: {text}\nCurrent {annotation_type} Label: {label}\n")
        correction = input("Do you want to correct the label? (y/n): ")
        if correction.lower() == 'y':
            new_label = input(f"Enter the correct {annotation_type} label: ")
            reviewed_results.append((text, new_label))
        else:
            reviewed_results.append((text, label))
        print("\n" + "=" * 50 + "\n")
    return reviewed_results

# 示例数据
texts = [
    "I love this amazing movie. It's very entertaining!",
    "The new iPhone has great features. It's a technological marvel.",
    "I won the basketball game today. What a great sport!",
    "This book is so boring. I don't like it."
]

# 主题分类的半自动化标注
topic_annotations = semi_automatic_topic_annotation(texts)
print("Initial Topic Annotations:")
for text, label in topic_annotations:
    print(f"Text: {text}, Label: {label}")
final_topic_annotations = manual_review(topic_annotations, 'Topic')
print("\nFinal Topic Annotations:")
for text, label in final_topic_annotations:
    print(f"Text: {text}, Label: {label}")

# 情感分类的半自动化标注
sentiment_annotations = semi_automatic_sentiment_annotation(texts)
print("\nInitial Sentiment Annotations:")
for text, label in sentiment_annotations:
    print(f"Text: {text}, Label: {label}")
final_sentiment_annotations = manual_review(sentiment_annotations, 'Sentiment')
print("\nFinal Sentiment Annotations:")
for text, label in final_sentiment_annotations:
    print(f"Text: {text}, Label: {label}")

Initial Topic Annotations:
Text: I love this amazing movie. It's very entertaining!, Label: 娱乐
Text: The new iPhone has great features. It's a technological marvel., Label: 科技
Text: I won the basketball game today. What a great sport!, Label: 体育
Text: This book is so boring. I don't like it., Label: 其他
Text: I love this amazing movie. It's very entertaining!
Current Topic Label: 娱乐



Do you want to correct the label? (y/n):  n




Text: The new iPhone has great features. It's a technological marvel.
Current Topic Label: 科技



Do you want to correct the label? (y/n):  n




Text: I won the basketball game today. What a great sport!
Current Topic Label: 体育



Do you want to correct the label? (y/n):  n




Text: This book is so boring. I don't like it.
Current Topic Label: 其他



Do you want to correct the label? (y/n):  n





Final Topic Annotations:
Text: I love this amazing movie. It's very entertaining!, Label: 娱乐
Text: The new iPhone has great features. It's a technological marvel., Label: 科技
Text: I won the basketball game today. What a great sport!, Label: 体育
Text: This book is so boring. I don't like it., Label: 其他

Initial Sentiment Annotations:
Text: I love this amazing movie. It's very entertaining!, Label: 积极
Text: The new iPhone has great features. It's a technological marvel., Label: 积极
Text: I won the basketball game today. What a great sport!, Label: 积极
Text: This book is so boring. I don't like it., Label: 积极
Text: I love this amazing movie. It's very entertaining!
Current Sentiment Label: 积极



Do you want to correct the label? (y/n):  n




Text: The new iPhone has great features. It's a technological marvel.
Current Sentiment Label: 积极



Do you want to correct the label? (y/n):  n




Text: I won the basketball game today. What a great sport!
Current Sentiment Label: 积极



Do you want to correct the label? (y/n):  n




Text: This book is so boring. I don't like it.
Current Sentiment Label: 积极



Do you want to correct the label? (y/n):  y
Enter the correct Sentiment label:  消极





Final Sentiment Annotations:
Text: I love this amazing movie. It's very entertaining!, Label: 积极
Text: The new iPhone has great features. It's a technological marvel., Label: 积极
Text: I won the basketball game today. What a great sport!, Label: 积极
Text: This book is so boring. I don't like it., Label: 消极


### （四）数据划分

1、训练集、验证集、测试集划分
- 比例：通常按照 80%、10%、10% 或其他合适比例划分。

![数据划分](images/数据划分.png)
![训练集](images/训练集.png)
![验证集](images/验证集.png)
![测试集](images/测试集.png)

- 分层抽样：对于分类任务，保证各集合中类别分布与总体一致。
 
2、数据泄露问题
- 防止验证集或测试集中的数据特征被训练集包含，避免模型评估过于乐观。

### （五）案例展示

https://www.kaggle.com/code/shelterw/extra-dataset-process/notebook


## 三、数据处理工具与框架

### （一）常用工具

- Python 数据处理库：如 Pandas、Numpy 等，可用于数据的读取、清洗、转换和分析。Pandas 可以方便地对数据进行表格化处理，如数据的筛选、合并、分组等操作；Numpy 则提供了高效的数值计算功能，在处理大规模数据时能够提高计算效率。  

In [17]:
import pandas as pd

# 使用Pandas进行数据处理的示例
def pandas_example():
    # 创建一个简单的数据框
    data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
            'Age': [25, 30, 35, 40],
            'Score': [85, 90, 88, 92]}
    df = pd.DataFrame(data)
    print("Original DataFrame:")
    print(df)
    
    # 筛选 Age 大于 30 的行
    filtered_df = df[df['Age'] > 30]
    print("\nFiltered DataFrame (Age > 30):")
    print(filtered_df)
    
    # 按 Age 分组并计算平均 Score
    grouped_df = df.groupby('Age')['Score'].mean()
    print("\nGrouped DataFrame (Average Score by Age):")
    print(grouped_df)

# 调用函数
pandas_example()

Original DataFrame:
      Name  Age  Score
0    Alice   25     85
1      Bob   30     90
2  Charlie   30     88
3    David   40     92

Filtered DataFrame (Age > 30):
    Name  Age  Score
3  David   40     92

Grouped DataFrame (Average Score by Age):
Age
25    85.0
30    89.0
40    92.0
Name: Score, dtype: float64


- 文本处理库：如 NLTK、SpaCy 等，用于文本的分词、词性标注、命名实体识别等任务。NLTK 提供了丰富的文本处理工具和语料库，便于进行文本的基础处理；SpaCy 则在处理效率和准确性上表现出色，能够快速准确地完成复杂的文本分析任务。

### （二）框架

- Hugging Face 的 Datasets 库：方便数据加载、处理与共享。它提供了大量的公开数据集接口，并且可以方便地对数据集进行自定义处理和转换，同时支持数据的缓存和版本控制，便于团队协作和数据管理。

![hugging face datasets](images/hunggingface_datasets.png)


- TensorFlow Data Validation（TFDV）：用于数据的统计分析与验证，可帮助发现数据中的异常与偏差。它可以对数据的分布、特征相关性等进行深入分析，在数据预处理阶段及时发现数据质量问题，为模型训练提供可靠的数据保障。

![TFDV](images/TFDV.png)

## 四、常见的数据处理案例分析

- **电商智能客服模型**

在电商领域，构建智能客服模型是提升用户购物体验、降低运营成本的关键举措。

![智能客服模型](images/智能客服模型.png)

- 初期，**数据收集**环节整合多元数据源，一方面从电商平台沉淀的海量售后对话记录、用户反馈表单等自有数据中精准提取信息；另一方面引入公开的客服对话数据集，扩充数据规模、丰富语义场景，确保涵盖商品咨询、物流追踪、售后投诉等全品类话题以及多样用户情绪表达。
- 进入**数据清洗**阶段，利用正则表达式等技术剔除对话中的乱码、表情符号等无效噪声；借助分类器筛除敷衍、辱骂等低质对话，净化数据环境。
**数据标注**过程严格分类用户需求，专业人员细致核查商品名、单号等关键实体标注，保障信息精准度。
- 完成**数据划分**后，模型在训练集中 “沉浸式” 学习对话模式与业务知识；验证集实时监测模型表现，微调参数优化性能；部署上线后，持续收集新对话数据，经清洗、标注流程回流入模型，迭代优化，实现精准答疑，显著提升转化率与用户满意度。

- **医疗影像诊断模型**

医疗影像诊断模型关乎疾病早期筛查、精准诊疗，数据处理尤为重要。

![医疗诊断模型](images/医疗诊断模型.png)

- **数据收集**阶段，深度挖掘医院影像数据库资源，联合国际权威的公开医学影像集，广泛覆盖各类病症影像，从常见慢性病到罕见病一应俱全，保证样本多样性。
- **数据清洗**流程需要筛除模糊不清、曝光过度等低质影像。凭借专业医师经验与标注工具，精准**标注**病灶类型、位置及严重程度等关键信息。
- **划分数据**时，遵循分层抽样原则，确保各病症类别在训练、验证、测试集均衡分布。训练成型的模型在临床辅助诊断中，助力医生快速、精准识别病灶，缩短诊断时间，提升诊断准确率，为医疗资源合理配置、患者及时救治贡献关键力量。

## 五、拓展学习

### 数据增强
1、应用场景与注意事项
- 适用于数据量较小的情况，但要注意增强后数据的合理性与有效性，避免引入过多噪声。

2、常用方法
- 随机替换、插入、删除：在文本中随机替换单词、插入新单词或删除一些单词，生成新的文本数据。
- 回译：将文本翻译成其他语言再翻译回原语言。

![数据增强方法](images/数据增强方法.jpg)

In [8]:
!pip install translate

[0mLooking in indexes: http://mirrors.tencentyun.com/pypi/simple
[0m

In [None]:
import random
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import wordnet

nltk.download('punkt')
nltk.download('wordnet')

def random_word_replacement(sentence, n=1):
    tokens = word_tokenize(sentence)
    new_tokens = tokens.copy()
    for _ in range(n):
        random_index = random.randint(0, len(tokens) - 1)
        word = tokens[random_index]
        synonyms = []
        for syn in wordnet.synsets(word):
            for lemma in syn.lemmas():
                synonyms.append(lemma.name())
        if len(synonyms) >= 1:
            synonym = synonyms[random.randint(0, len(synonyms) - 1)]
            new_tokens[random_index] = synonym
    return ' '.join(new_tokens)

def random_word_insertion(sentence, n=1):
    tokens = word_tokenize(sentence)
    for _ in range(n):
        random_index = random.randint(0, len(tokens))
        synonyms = []
        random_word = tokens[random.randint(0, len(tokens) - 1)]
        for syn in wordnet.synsets(random_word):
            for lemma in syn.lemmas():
                synonyms.append(lemma.name())
        if len(synonyms) >= 1:
            synonym = synonyms[random.randint(0, len(synonyms) - 1)]
            tokens.insert(random_index, synonym)
    return ' '.join(tokens)

def random_word_deletion(sentence, p=0.1):
    tokens = word_tokenize(sentence)
    new_tokens = []
    for token in tokens:
        if random.uniform(0, 1) > p:
            new_tokens.append(token)
    return ' '.join(new_tokens)


# 示例句子
sentence = "This is a sample sentence for data augmentation."

print("Original sentence:", sentence)
print("\nSentence after random word replacement:", random_word_replacement(sentence))
print("\nSentence after random word insertion:", random_word_insertion(sentence))
print("\nSentence after random word deletion:", random_word_deletion(sentence))

#### 分词

**词表/词典** 传统的自然语言处理方法通常以单词为基本处理单元，模型都依赖预先确定的词表V，在编码输入词序列时，这些词表示模型只能处理词表中存在的词。<br>

**未登录词/OOV** 
- 如果遇到不在词表中的未登录词，模型无法为其生成对应的表示，只能给予这些未登录词（Out-Of-Vocabulary，OOV）一个默认
的表示UNK
- UNK 的向量作为词表示矩阵的一部分一起参与训练，用来表示语料库中**所有**未登录词的向量表示。
- 词表大小过小时，未登录词的比例较高，影响模型性能
- 词表大小过大时，大量低频词出现
在词表中，而这些词的词向量很难得到充分学习

<div class="alert alert-warning">
<b>词表示模型应能覆盖绝大部分的输入词，并避免词表过大所造成的数据稀疏问题。<b>
</div。


分词是一种关键的数据预处理步骤，在这个过程中，原始文本被切分成单独的标记（tokens），以便输入到大型语言模型（LLMs）中。这个过程在自然语言处理（NLP）中扮演着非常重要的角色。它的主要任务是将文本数据（如句子或文档）转换为对计算机更易于处理的格式。

虽然使用现有的分词器可能很方便，但使用针对预训练语料库量身定制的分词器可能更有优势，特别是对于包含多样化领域、语言和格式的语料库。

为此，一部分LLMs使用SentencePiece开发了定制的分词器。这些分词器采用字节级的字节对编码（Byte Pair Encoding, BPE）算法，以确保在分词过程中不会丢失信息。

##### BPE分词法

BPE（Byte Pair Encoding）分词法是一种常用于自然语言处理中的分词和子词处理技术。它的基本思想是从语料库中学习出现频率最高的字符序列，并将它们合并成一个更大的子词或标记。


[BPE](https://aclanthology.org/P16-1162.pdf) 算法流程


<img src="image/bpe.png"  width="800" height="600" alt="rag-vs-finetuning-chn"/>

图片来源：[《大规模语言模型-从理论到实践》 复旦大学](https://intro-llm.github.io/)

**训练过程：**
- 首先，将语料库中的所有单词拆分成字符（或字符级别的子词）。
- 计算字符对的频率，找到最频繁出现的字符对。
- 合并最频繁的字符对，形成一个新的子词。
- 重复上述步骤，直到达到预定的词汇大小或者不再有频繁的字符对可以合并。

这里是一个分词器训练时的具体过程：

**步骤1：准备语料库**

假设我们有以下中文语料库：

"我喜欢吃巧克力"

"蛋糕很好吃"

"喜欢吃甜食的人很多"

"我喜欢吃好吃的蛋糕"

**通过特定分隔符标注开头和结尾（此处通过#标注）**

"#我喜欢吃巧克力#"

"#蛋糕很好吃#"

"#喜欢吃甜食的人很多#"

"#我喜欢吃好吃的蛋糕#"

**步骤2：字符级别分词**

将每个句子分割成字符级别的子词：

句子1: "我 喜 欢 吃 巧 克 力 \</w>"

句子2: "蛋 糕 很 好 吃 \</w>"

句子3: "喜 欢 吃 甜 食 的 人 很 多 \</w>"

句子4: "我 喜 欢 吃 好 吃 的 蛋 糕 \</w>"

**步骤3：初始化词汇表**

初始词汇表包含语料库中的所有字符：

词汇表：{'我', '喜', '欢', '吃', '巧', '克', '力', '蛋', '糕', '很', '好', '甜', '食', '的', '人', '多', '#'}

**步骤4：训练BPE模型**

重复以下步骤，直到停止条件满足：

a. 统计字符对的频率，找到最频繁的字符对：

统计频率：{'喜欢': 3, '好吃': 2, '#我': 2}

最频繁的字符对：'喜欢'，频率为3

b. 合并最频繁的字符对，生成新的子词：

合并：'喜 欢' -> '喜欢'

更新词汇表：{'我', '喜欢', '吃', '巧', '克', '力', '很', '好', '的', '人', '多', '蛋', '糕', '甜', '食', '#'}

c. 更新语料库中的文本：

更新后的句子1: "我 喜欢 吃 巧 克 力 \</w>"

更新后的句子2: "蛋 糕 很 好 吃 \</w>"

更新后的句子3: "喜欢 吃 甜 食 的 人 很 多 \</w>"

更新后的句子4: "我 喜欢 吃 好 吃 的 蛋 糕 \</w>"

d. 重复步骤a-c，直到满足停止条件（例如，合并次数达到预定次数或词汇表大小达到预定大小）。

**步骤5：生成子词词汇表**

最终词汇表包含字符和更大的子词：

词汇表：{'</w>', '人', '克', '力', '吃', '喜', '喜欢', '喜欢吃', '多', '好', '好吃', '巧', '很', '我', '我喜欢吃', '欢', '甜', '的', '糕', '蛋', '蛋糕', '食'}

**步骤6：应用BPE模型**

使用训练好的BPE模型对新的文本进行分词，将文本拆分成词汇表中存在的子词。

示例输入文本："我喜欢吃甜食很好吃"

分词结果："我喜欢吃 甜 食 很 好吃"

In [1]:
import re, collections

vocab = [
    '我 喜 欢 吃 巧 克 力 </w>', 
    '蛋 糕 很 好 吃 </w>',
    '喜 欢 吃 甜 食 的 人 很 多 </w>',
    '我 喜 欢 吃 好 吃 的 蛋 糕 </w>'
]
vocab_set = set(word for v in vocab for word in v.split())
print(sorted(list(vocab_set)))

['</w>', '人', '克', '力', '吃', '喜', '多', '好', '巧', '很', '我', '欢', '甜', '的', '糕', '蛋', '食']


In [2]:
def bpe_steps_update_vocab(sentences, num_merges):
    # 初始化词汇表，包含所有句子中的单词
    vocab = set(word for sentence in sentences for word in sentence.split())
    for i in range(num_merges):
        pair_stats = collections.defaultdict(int)  # 用于统计每对相邻单词出现的次数
        for sentence in sentences:
            words = sentence.split()
            for j in range(len(words)-1):
                pair_stats[words[j], words[j+1]] += 1  # 对每对相邻单词进行计数

        if not pair_stats:
            break  # 如果没有可合并的单词对，则退出循环

        best_pair = max(pair_stats, key=pair_stats.get)  # 找到出现次数最多的单词对
        new_word = ''.join(best_pair)  # 合并这对单词
        vocab.add(new_word)  # 将新词添加到词汇表中
        # 在句子中替换所有出现的最佳单词对为新词
        sentences = [re.sub(r'(?<!\S)' + re.escape(' '.join(best_pair)) + r'(?!\S)', new_word, sentence) for sentence in sentences]

        # 打印每一步的合并信息、更新后的词汇表和句子
        print(f"Step {i+1}: Merged {best_pair} into {new_word}")
        print("Updated Vocabulary:", sorted(list(vocab)))
        print("Sentences:", sentences)
        print()

    # 返回排序后的词汇表和更新后的句子
    return sorted(list(vocab)), sentences
sentences=["我 喜 欢 吃 甜 食,甜 食 很 好 吃"]
# 用初始句子列表开始BPE过程，并更新词汇表
updated_vocab, updated_sentences = bpe_steps_update_vocab(sentences, 5)
print(updated_vocab)
print(updated_sentences)


Step 1: Merged ('我', '喜') into 我喜
Updated Vocabulary: ['吃', '喜', '好', '很', '我', '我喜', '欢', '甜', '食', '食,甜']
Sentences: ['我喜 欢 吃 甜 食,甜 食 很 好 吃']

Step 2: Merged ('我喜', '欢') into 我喜欢
Updated Vocabulary: ['吃', '喜', '好', '很', '我', '我喜', '我喜欢', '欢', '甜', '食', '食,甜']
Sentences: ['我喜欢 吃 甜 食,甜 食 很 好 吃']

Step 3: Merged ('我喜欢', '吃') into 我喜欢吃
Updated Vocabulary: ['吃', '喜', '好', '很', '我', '我喜', '我喜欢', '我喜欢吃', '欢', '甜', '食', '食,甜']
Sentences: ['我喜欢吃 甜 食,甜 食 很 好 吃']

Step 4: Merged ('我喜欢吃', '甜') into 我喜欢吃甜
Updated Vocabulary: ['吃', '喜', '好', '很', '我', '我喜', '我喜欢', '我喜欢吃', '我喜欢吃甜', '欢', '甜', '食', '食,甜']
Sentences: ['我喜欢吃甜 食,甜 食 很 好 吃']

Step 5: Merged ('我喜欢吃甜', '食,甜') into 我喜欢吃甜食,甜
Updated Vocabulary: ['吃', '喜', '好', '很', '我', '我喜', '我喜欢', '我喜欢吃', '我喜欢吃甜', '我喜欢吃甜食,甜', '欢', '甜', '食', '食,甜']
Sentences: ['我喜欢吃甜食,甜 食 很 好 吃']

['吃', '喜', '好', '很', '我', '我喜', '我喜欢', '我喜欢吃', '我喜欢吃甜', '我喜欢吃甜食,甜', '欢', '甜', '食', '食,甜']
['我喜欢吃甜食,甜 食 很 好 吃']


In [3]:
def encode_sentence_with_bpe(sentence, vocab):
    # 将句子拆分为单个字符
    symbols = list(sentence.replace(" ", ""))
    encoded_sentence = []

    i = 0
    while i < len(symbols):
        matched = False
        # 检查从当前位置开始的最长的可能匹配
        for j in range(len(symbols), i, -1):
            candidate = ''.join(symbols[i:j])
            if candidate in vocab:
                encoded_sentence.append(candidate)
                i = j
                matched = True
                break
        # 如果没有匹配到任何字词，就简单地使用单个字符
        if not matched:
            encoded_sentence.append(symbols[i])
            i += 1

    return encoded_sentence

# 新句子
# new_sentence = "我喜欢吃蛋糕和巧克力"
new_sentence = "我喜欢吃甜食,甜食很好吃"
new_sentence = "我喜欢吃苹果,梨子也很好吃"

# 使用更新后的词汇表对新句子进行BPE编码
encoded_new_sentence = encode_sentence_with_bpe(new_sentence, updated_vocab)
# 将编码后的字词序列组合回句子
reconstructed_sentence = ' '.join(encoded_new_sentence)
reconstructed_sentence

'我喜欢吃 苹 果 , 梨 子 也 很 好 吃'

下面是我们通过chinese-alpaca-2-7b的专属分词器进行分词任务的示例：

```
# The model that you want to train from the Hugging Face hub
model_name = "ziqingyang/chinese-alpaca-2-7b"
tokenizer = LlamaTokenizer.from_pretrained(model_name)
text = "三原色原理是指人眼对红、绿、蓝最为敏感，大多数的颜色可以通过红、绿、蓝三色按照不同的比例合成产生。"
tokens = tokenizer.tokenize(text)
print(tokens)

['▁', '三', '原', '色', '原理', '是指', '人', '眼', '对', '红', '、', '绿', '、', '蓝', '最为', '敏感', '，', '大多数', '的颜色', '可以通过', '红', '、', '绿', '、', '蓝', '三', '色', '按照', '不同的', '比例', '合成', '产生', '。']

## 课程小结

一、数据集类型和重要性

二、数据处理常见流程
- 数据收集（公开数据集、自有数据等）
- 数据清洗（噪声处理、低质量过滤）
- 数据标注（标注类型、标注方法）
- 数据划分（比例、分层抽样、数据泄露）
- 案例展示

三、数据处理工具与框架
- 常用工具（Pandas、Numpy等）
- 框架（Hugging Face、TFDV等）

四、常见的数据处理案例分析
- 电商智能客服模型
- 医疗影像诊断模型

五、扩展学习
- 数据增强（应用场景、常用方法）