# 生成式人工智能的构建模块
## 文本预处理
### Tokenization
Word tokenization
将文本拆分成单个单词，eg：“Generative AI is charming.”变成["Generative", "AI", "is", "fascinating", "."]
Subword tokenization
将单词拆分成更小的单元，对处理位置或罕见单词特别有用。eg：“unhappiness”变成["un", "happiness"]
Character tokenization
将文本拆分为单个字符。eg：["G", "e", "n", "e", "r", "a", "t", "i", "v", "e", ...] 

In [None]:
'''
一个基本的单词标记器。此示例将把一个句子拆分为单词和标点符号，演示标记化如何构造原始文本。
'''
def simple_tokenize(text):
    tokens = []
    current_word = ""
    for char in text:
        if char.isalnum():
            current_word += char
        else:
            if current_word != "":
                tokens.append(current_word)
                current_word = ""
            if char.strip() != "":
                tokens.append(char)
    if current_word != "":
        tokens.append(current_word)
    
    return tokens

sentence = "Generative AI is charming."
tokens = simple_tokenize(sentence)
print(tokens)


['Generative', 'AI', 'is', 'charming', '.']


### 词干提取
一种基于规则的过程，通过删除常见的前缀或后缀来截断单词。它快速且计算简单，因此在文档分类和搜索引擎索引等任务中很受欢迎。eg：“cats”和“cat”等单词合并为“cat”
![词干提取](image.png)

In [None]:
'''
一个基本的词干提取器来删除常见后缀。
'''
def simple_stem(word):
    suffixes = ["ing", "ly", "ed", "ious", "ies", "ive", "es", "s", "ment"]
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]  # Remove the matched suffix.
    return word

# Example usage
words = ["running", "happily", "tried", "faster", "cats"]
stemmed_words = [simple_stem(word) for word in words]
print("Stemmed Words:", stemmed_words)

Stemmed Words: ['runn', 'happi', 'tri', 'faster', 'cat']


### 词形还原
将单词映射到其基本形式或词典形式（ 词根 ）。与词干提取不同，词形还原通常需要了解单词的词性，并且可能依赖于形态分析器或词汇数据库。
![词形还原](image-1.png)

In [None]:
'''一个基本的词形还原器'''
def simple_lemmatize(word):
    # A minimal dictionary for known irregular forms.
    irregular_lemmas = {
        "running": "run",
        "happily": "happy",
        "ran": "run",
        "better": "good",
        "faster": "fast",
        "cats": "cat",
        "dogs": "dog",
        "are": "be",
        "is": "be",
        "have": "have"
    }
    return irregular_lemmas.get(word, word)

# Example usage
words = ["running", "happily", "ran", "better", "faster", "cats"]
lemmatized_words = [simple_lemmatize(word) for word in words]
print("Lemmatized Words:", lemmatized_words)

Lemmatized Words: ['run', 'happy', 'run', 'good', 'fast', 'cat']


Question：词干提取和词形还原哪个更好？
Answer：取决于具体的需求，当需要速度并且可以容忍一些不准确性时，选择词干提取 。它适合大型应用程序，例如为搜索引擎索引文档。当需要准确性和语义正确性时，选择词形还原 。它非常适合那些需要理解单词精确含义的任务。
eg：Elasticsearch 等搜索引擎经常使用词干分析来快速索引文档，确保“run”、“running”和“ran”等查询检索到相关结果。相比之下，需要细致入微的语言理解的应用程序（例如客户评论中的情绪分析）更能从词形还原中获益，因为它可以准确捕捉不同词形所表达的情绪。

### 其它预处理技术
Lowercasing
通过将所有单词转换为小写来标准化文本，从而减少词汇量并提高模型效率。
Removing stop words
删除停用词会消除常见但语义上不重要的词（例如“the”、“is”），从而使模型能够专注于有意义的内容。
Stripping punctuation
删除标点符号会删除不必要的符号，这些符号会增加复杂性，而不会对文本分类等任务的意义有所帮助。
Handling special characters and numbers
处理特殊字符和数字可确保仅保留相关元素，具体取决于任务（例如，保留数字以进行情感分析，但删除它们以进行一般文本处理）。
Handling contractions 
处理缩写意味着扩展缩写（例如，将“don't”扩展为“do not”）可以提高理解。
Correcting misspellings 
纠正拼写错误意味着自动修复拼写错误以确保数据集的一致性。
Dealing with abbreviations and acronyms
处理缩写和首字母缩略词意味着扩展或标准化缩写（例如，将“AI”改为“人工智能”）可以提高清晰度。

In [None]:
# Sample text containing various cases
text = "Apple released the iPhone! I didn't know that Apple's announcement would shock everyone. Don't you think it's amazing?"

print("Original Text:")
print(text)
print("-" * 100)

# 1. Lowercasing: Convert all text to lowercase
lower_text = text.lower()
print("After Lowercasing:")
print(lower_text)
print("-" * 100)

# 2. Tokenization: Split text into words (this simple approach splits on whitespace)
tokens = lower_text.split()
print("After Tokenization:")
print(tokens)
print("-" * 100)

# 3. Stripping Punctuation: Remove punctuation from each token
# Define a set of punctuation characters
punctuations = '.,!?\'":;()'
tokens = [token.strip(punctuations) for token in tokens]
print("After Removing Punctuation:")
print(tokens)
print("-" * 100)

# 4. Removing Stop Words: Filter out common, semantically insignificant words
stop_words = ['the', 'is', 'at', 'on', 'and', 'a', 'an', 'of', 'that', 'would', 'you', 'it']
tokens = [token for token in tokens if token not in stop_words]
print("After Removing Stop Words:")
print(tokens)
print("-" * 100)

# 5. Expanding Contractions: Replace contractions with their expanded forms
# Note: This is a simple dictionary for demonstration
contractions = {
    "didn't": "did not",
    "don't": "do not",
    "it's": "it is",
    "i'm": "i am",
    "i've": "i have",
    "apple's": "apple has"
}

expanded_tokens = []
for token in tokens:
    if token in contractions:
        # Split the expanded form to keep tokens consistent
        expanded_tokens.extend(contractions[token].split())
    else:
        expanded_tokens.append(token)
tokens = expanded_tokens
print("After Expanding Contractions:")
print(tokens)
print("-" * 100)

# 6. Handling Special Characters and Numbers:
# For this example, remove tokens that are purely numeric.
tokens = [token for token in tokens if not token.isdigit()]
print("After Handling Numbers:")
print(tokens)
print("-" * 100)

# 7. Correcting Misspellings:
# A very basic approach using a predefined dictionary of common corrections.
corrections = {
    "iphon": "iphone",  # Example: if a typo occurred
    # add more common misspellings as needed
}
tokens = [corrections.get(token, token) for token in tokens]
print("After Correcting Misspellings:")
print(tokens)
print("-" * 100)

# 8. Dealing with Abbreviations and Acronyms:
# Expand or standardize abbreviations using a simple mapping.
abbreviations = {
    "ai": "artificial intelligence",
    # add additional abbreviation mappings as needed
}
tokens = [abbreviations.get(token, token) for token in tokens]
print("After Expanding Abbreviations:")
print(tokens)
print("-" * 100)

# Final preprocessed tokens
print("Final Preprocessed Tokens:")
print(tokens)

Original Text:
Apple released the iPhone! I didn't know that Apple's announcement would shock everyone. Don't you think it's amazing?
----------------------------------------------------------------------------------------------------
After Lowercasing:
apple released the iphone! i didn't know that apple's announcement would shock everyone. don't you think it's amazing?
----------------------------------------------------------------------------------------------------
After Tokenization:
['apple', 'released', 'the', 'iphone!', 'i', "didn't", 'know', 'that', "apple's", 'announcement', 'would', 'shock', 'everyone.', "don't", 'you', 'think', "it's", 'amazing?']
----------------------------------------------------------------------------------------------------
After Removing Punctuation:
['apple', 'released', 'the', 'iphone', 'i', "didn't", 'know', 'that', "apple's", 'announcement', 'would', 'shock', 'everyone', "don't", 'you', 'think', "it's", 'amazing']
--------------------------------

## NLP
### BoW（Bag of Words）
率先脱离了基于规则的指令，而是依赖于对单词出现次数进行计数。譬如两个句子“I love cats”和“I hate dogs”，我们将这两个句子分词，然后得出一个词汇表["I", "love", "cats", "hate", "dogs"],接下来计算每次词汇在句子中出现的次数，比对词汇表，“I love cats”得出向量[1,1,1,0,0],“I hate dogs”得出向量[1,0,0,1,1]
![BoW示例](image-2.png)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

sentences = ["I love cats", "I hate dogs"]
vectorizer = CountVectorizer(token_pattern=r'(?u)\b\w+\b')  # Adjusted pattern to include single characters
bow_matrix = vectorizer.fit_transform(sentences)

print("Vocabulary:", vectorizer.get_feature_names_out())
print("Vectors:\n", bow_matrix.toarray())

Vocabulary: ['cats' 'dogs' 'hate' 'i' 'love']
Vectors:
 [[1 0 0 1 1]
 [0 1 1 1 0]]


执行以上示例可以发现，BoW方式忽略了单词的出现顺序，对需要理解语义的场景并不适合，但是类似垃圾邮件分类这种场景，效率很高。

### TF-IDF(Term Frequency–Inverse Document Frequency)
通过根据单词的重要性对单词进行加权来改进BoW方法。
$$
TF(w) = \frac{Count of w in a document}{Total number of words in the document}
IDF(w) = log(\frac{Total number of documents}{Number of documents containing w})
TF-IDF(w) = TF(w) * IDF(w)
$$
eg：假设文档中“recipe”的TF为0.05，整个语料库中“recipe”的IDF为2，TF-IDF为TF-IDF("recipe")=0.05×2=0.1
TF-IDF 会突出显示文档中重要但独特的单词。像“recipe”这样的单词可能具有较高的 TF-IDF 分数，因为它在特定文档中很常见，但在整个语料库中并不常见。像“the”这样的常用词将具有较低的分数，因为它的 IDF 很低，即使它的 TF 很高。

In [None]:
import math

# Sample documents
documents = [
    "The quick brown fox jumps over the lazy dog",
    "Never jump over the lazy dog quickly",
    "A fast brown fox leaps over a lazy dog"
]

def tokenize(document):
    """
    Simple tokenizer that lowercases and splits on whitespace.
    Removes punctuation for simplicity.
    """
    # Remove punctuation
    punctuations = '.,!?;:()[]{}\'"'
    for p in punctuations:
        document = document.replace(p, '')
    # Lowercase and split
    tokens = document.lower().split()
    return tokens

def compute_tf(doc_tokens):
    """
    Computes term frequency for a single document.
    Returns a dictionary of term frequencies.
    """
    tf = {}
    for term in doc_tokens:
        tf[term] = tf.get(term, 0) + 1
    # Optionally, normalize TF by the total number of terms in the document
    total_terms = len(doc_tokens)
    for term in tf:
        tf[term] = tf[term] / total_terms
    return tf

def compute_df(documents_tokens):
    """
    Computes document frequency for all terms in the corpus.
    Returns a dictionary of document frequencies.
    """
    df = {}
    for tokens in documents_tokens:
        unique_terms = set(tokens)
        for term in unique_terms:
            df[term] = df.get(term, 0) + 1
    return df

def compute_idf(df, total_docs):
    """
    Computes inverse document frequency for all terms.
    Returns a dictionary of IDF scores.
    """
    idf = {}
    for term, freq in df.items():
        idf[term] = math.log(total_docs / (1 + freq)) + 1  # Adding 1 to avoid division by zero
    return idf

def compute_tf_idf(tf, idf):
    """
    Computes TF-IDF for a single document.
    Returns a dictionary of TF-IDF scores.
    """
    tf_idf = {}
    for term, tf_value in tf.items():
        tf_idf[term] = tf_value * idf.get(term, 0)
    return tf_idf

def main(documents):
    # Step 1: Tokenize all documents
    documents_tokens = [tokenize(doc) for doc in documents]
    
    # Step 2: Compute TF for each document
    tfs = [compute_tf(tokens) for tokens in documents_tokens]
    
    # Step 3: Compute DF across all documents
    df = compute_df(documents_tokens)
    
    # Step 4: Compute IDF for all terms
    total_docs = len(documents)
    idf = compute_idf(df, total_docs)
    
    # Step 5: Compute TF-IDF for each document
    tf_idfs = [compute_tf_idf(tf, idf) for tf in tfs]
    
    # (Optional) Collect all unique terms for creating a TF-IDF matrix
    all_terms = sorted(df.keys())
    
    # Display TF-IDF scores
    for i, tf_idf in enumerate(tf_idfs):
        print(f"\nDocument {i+1} TF-IDF:")
        for term in all_terms:
            score = tf_idf.get(term, 0)
            if score > 0:
                print(f"  {term}: {score:.4f}")

if __name__ == "__main__":
    main(documents)


Document 1 TF-IDF:
  brown: 0.1111
  dog: 0.0791
  fox: 0.1111
  jumps: 0.1562
  lazy: 0.0791
  over: 0.0791
  quick: 0.1562
  the: 0.2222

Document 2 TF-IDF:
  dog: 0.1018
  jump: 0.2008
  lazy: 0.1018
  never: 0.2008
  over: 0.1018
  quickly: 0.2008
  the: 0.1429

Document 3 TF-IDF:
  a: 0.3123
  brown: 0.1111
  dog: 0.0791
  fast: 0.1562
  fox: 0.1111
  lazy: 0.0791
  leaps: 0.1562
  over: 0.0791


### n-gram模型
给定一个单词序列，模型通过查看文本语料库中单词组合（或“gram”）的频率来估计下一个单词的概率。这就是n-gram背后的理念，基于该理念来解决BoW和TF-IDF牺牲了的顺序的问题。
$$
P(\w_i|\w_i-1) = \frac{Count(\w_i-1, \w_i)}{Count(\w_i-1)}   # 2-Gram
P(\w_i|\w_i-2,\w_i-1) = \frac{Count(\w_i-2, \w_i-1, \w_i)}{Count(\w_i-2, \w_i-1)}  # 3-Gram
$$

In [None]:
# Toy dataset
sentences = [
    "I love natural language processing",
    "Language models are amazing"
]

# Function to generate bigrams
def generate_bigrams(sentence):
    words = sentence.lower().split()  # Tokenization (lowercase + split)
    bigrams = [(words[i], words[i + 1]) for i in range(len(words) - 1)]
    return bigrams, words  # Return bigrams and word list

# Collect all words and bigrams
all_bigrams = []
all_words = set()  # To store unique words

for sentence in sentences:
    bigrams, words = generate_bigrams(sentence)
    all_bigrams.extend(bigrams)
    all_words.update(words)

# Sort words for consistent ordering
unique_words = sorted(all_words)

# Create bigram frequency matrix
bigram_matrix = {word: {w: 0 for w in unique_words} for word in unique_words}

# Count occurrences of bigrams
for bigram in all_bigrams:
    first, second = bigram
    bigram_matrix[first][second] += 1

# Convert frequency matrix to probability matrix
for word in unique_words:
    total_bigrams = sum(bigram_matrix[word].values())  # Total transitions from this word
    if total_bigrams > 0:
        for next_word in unique_words:
            bigram_matrix[word][next_word] /= total_bigrams  # Normalize to get probabilities

# Display bigram probability matrix in a well-formatted table
print("\nBigram Probability Matrix:\n")

# Print header row
header = ["Word"] + unique_words
col_width = 8  # Set a fixed column width for better alignment

# Print table header
print(f"{header[0]:<{col_width}}", end=" | ")
print(" | ".join(f"{w:<{col_width}}" for w in header[1:]))
print("-" * (col_width * (len(unique_words) + 1) + 3))

# Print each row with bigram probabilities
for word in unique_words:
    row_values = [f"{bigram_matrix[word][w]:.1f}" for w in unique_words]
    print(f"{word:<{col_width}}", end=" | ")
    print(" | ".join(f"{val:<{col_width}}" for val in row_values))


Bigram Probability Matrix:

Word     | amazing  | are      | i        | language | love     | models   | natural  | processing
---------------------------------------------------------------------------
amazing  | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0     
are      | 1.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0     
i        | 0.0      | 0.0      | 0.0      | 0.0      | 1.0      | 0.0      | 0.0      | 0.0     
language | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.5      | 0.0      | 0.5     
love     | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 1.0      | 0.0     
models   | 0.0      | 1.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0     
natural  | 0.0      | 0.0      | 0.0      | 1.0      | 0.0      | 0.0      | 0.0      | 0.0     
processing | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0      | 0.0     


n-gram模型也有有其自身的局限性和挑战。用固定窗口（例如 3 个单词）捕捉“上下文”就像试图用牙刷画出日落一样——虽然可行，但非常有限。罕见的单词组合表现不佳，因为 n-gram 严重依赖于在训练期间观察所有可能的序列。像“Generative AI rocks”这样的三元组可能永远不会出现在训练语料库中，因此其概率实际上为零。此外，上下文越长（n 越高），所需的数据就越多。模型在计算上变得昂贵，并且对于语言中的大词汇量或长期依赖性来说不切实际。这些缺点为一项关键的进步奠定了基础：词嵌入。与固定窗口模型不同，词嵌入（例如 Word2Vec 生成的词嵌入）允许模型通过将单词映射到连续向量空间来学习语义关系。这一发展通过捕获局部上下文和更广泛的语义含义解决了 n-gram 的局限性，有效地弥合了简单的基于计数的模型与更复杂的神经网络方法之间的差距。最终，这些创新为基于神经网络的方法铺平了道路，这些方法可以更好地概括并捕捉固定 n-gram 窗口之外的含义。

## 向量化语言
词向量——一种将单词表示为连续高维空间中的向量的方法。与基于频率的方法不同，词向量通过将单词放置在共享空间中来捕捉单词之间的关系，其中相似的单词最终会更接近在一起。
### Word2Vec
Word2Vec 通过训练神经网络来预测缺失单词 (CBOW) 或其周围上下文 (Skip-Gram)，从而学习词向量，捕获单词在低维向量空间中一起出现的频率。
#### CBOW
根据周围的上下文预测序列中的中心词。例如，在句子“The cat sat on the ___”中，模型使用上下文词 [“The”、“cat”、“sat”、“on”] 来预测中心词“mat”。
![CBOW](image-3.png)

In [None]:
import numpy as np

def softmax(x):
    """
    Compute the softmax of vector x in a numerically stable way.
    """
    exps = np.exp(x - np.max(x))
    return exps / np.sum(exps)

# ---------------------------------------------------
# Step 1: Define the Corpus
# ---------------------------------------------------
corpus = [
    "I like deep learning",
    "I like NLP",
    "I enjoy flying"
]

print("Original Corpus:")
for sentence in corpus:
    print(" -", sentence)

# ---------------------------------------------------
# Step 2: Preprocess the Corpus
# Lowercase and tokenize each sentence.
# ---------------------------------------------------
sentences = [sentence.lower().split() for sentence in corpus]

print("\nTokenized Sentences:")
for sentence in sentences:
    print(" -", sentence)

# ---------------------------------------------------
# Step 3: Build the Vocabulary and Mappings
# ---------------------------------------------------
vocab = set()
for sentence in sentences:
    for word in sentence:
        vocab.add(word)
vocab = list(vocab)  # Convert set to list to have a fixed order

# Create word-to-index and index-to-word mappings.
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for idx, word in enumerate(vocab)}

print("\nVocabulary (word to index mapping):")
for word, idx in word2idx.items():
    print(f" {word}: {idx}")

# ---------------------------------------------------
# Step 4: Generate Training Data for CBOW
# In CBOW, given the context words, we try to predict the center word.
# For each word in a sentence, the context is defined as the words
# within a window size (excluding the center word itself).
# ---------------------------------------------------
window_size = 1
training_pairs = []  # Each element is a tuple: (context_indices, center_index)

for sentence in sentences:
    for idx, word in enumerate(sentence):
        center_index = word2idx[word]
        context_indices = []
        # Collect words before the center word
        for i in range(max(0, idx - window_size), idx):
            context_indices.append(word2idx[sentence[i]])
        # Collect words after the center word
        for i in range(idx + 1, min(len(sentence), idx + window_size + 1)):
            context_indices.append(word2idx[sentence[i]])
        # Only add pairs where there is at least one context word
        if context_indices:
            training_pairs.append((context_indices, center_index))

print("\nTraining Pairs (context word indices, center word index):")
for context_idxs, center_idx in training_pairs:
    context_words = [idx2word[idx] for idx in context_idxs]
    center_word = idx2word[center_idx]
    print(f" Context: {context_words}, Center: {center_word} ({center_idx})")

# ---------------------------------------------------
# Step 5: Initialize Hyperparameters and Weights
# ---------------------------------------------------
embedding_dim = 10        # Dimension of the embedding vector
learning_rate = 0.01      # Learning rate for gradient descent
epochs = 100              # Number of epochs to train
vocab_size = len(vocab)   # Number of unique words in the vocabulary

# Weight matrices:
# W1: shape (vocab_size, embedding_dim) maps a one-hot vector to an embedding.
# W2: shape (embedding_dim, vocab_size) maps the hidden representation to scores over vocabulary.
W1 = np.random.rand(vocab_size, embedding_dim)
W2 = np.random.rand(embedding_dim, vocab_size)

# ---------------------------------------------------
# Step 6: Training the CBOW Model
# ---------------------------------------------------
print("\nStarting CBOW training...\n")
for epoch in range(epochs):
    loss_epoch = 0  # Accumulate loss over the epoch

    # Process each training pair
    for context_indices, center_idx in training_pairs:
        # ---------- Forward Pass ----------
        # 1. Look up embeddings for each context word from W1
        context_embeddings = np.array([W1[idx] for idx in context_indices])
        
        # 2. Compute the hidden layer representation by averaging the context embeddings
        h = np.mean(context_embeddings, axis=0)  # Shape: (embedding_dim,)
        
        # 3. Compute the scores over the vocabulary using W2
        scores = np.dot(h, W2)  # Shape: (vocab_size,)
        
        # 4. Apply softmax to obtain predicted probabilities
        y_pred = softmax(scores)
        
        # 5. Compute the loss (negative log likelihood for the true center word)
        loss = -np.log(y_pred[center_idx] + 1e-7)  # Adding epsilon to avoid log(0)
        loss_epoch += loss

        # ---------- Backward Pass ----------
        # 1. Compute error: the derivative of the loss with respect to the scores
        y_true = np.zeros(vocab_size)
        y_true[center_idx] = 1
        error = y_pred - y_true  # Shape: (vocab_size,)
        
        # 2. Compute gradient for W2 as the outer product of h and the error
        grad_W2 = np.outer(h, error)  # Shape: (embedding_dim, vocab_size)
        
        # 3. Compute gradient with respect to the hidden representation h
        grad_h = np.dot(W2, error)  # Shape: (embedding_dim,)
        
        # 4. Since h is the average of the context embeddings,
        #    distribute the gradient equally among them.
        grad_context = grad_h / len(context_indices)
        
        # ---------- Update Weights ----------
        # Update W1 for each context word in the training pair.
        for idx in context_indices:
            W1[idx] -= learning_rate * grad_context
        
        # Update W2
        W2 -= learning_rate * grad_W2

    # Print the average loss every 10 epochs for monitoring.
    if (epoch + 1) % 10 == 0:
        avg_loss = loss_epoch / len(training_pairs)
        print(f"Epoch {epoch + 1}/{epochs} - Average Loss: {avg_loss:.4f}")

print("\nCBOW Training complete!")

# ---------------------------------------------------
# Step 7: Display the Learned Embeddings
# ---------------------------------------------------
print("\nLearned Word Embeddings (from W1):")
for word, idx in word2idx.items():
    print(f" {word}: {W1[idx]}")

Original Corpus:
 - I like deep learning
 - I like NLP
 - I enjoy flying

Tokenized Sentences:
 - ['i', 'like', 'deep', 'learning']
 - ['i', 'like', 'nlp']
 - ['i', 'enjoy', 'flying']

Vocabulary (word to index mapping):
 learning: 0
 i: 1
 enjoy: 2
 nlp: 3
 flying: 4
 deep: 5
 like: 6

Training Pairs (context word indices, center word index):
 Context: ['like'], Center: i (1)
 Context: ['i', 'deep'], Center: like (6)
 Context: ['like', 'learning'], Center: deep (5)
 Context: ['deep'], Center: learning (0)
 Context: ['like'], Center: i (1)
 Context: ['i', 'nlp'], Center: like (6)
 Context: ['like'], Center: nlp (3)
 Context: ['enjoy'], Center: i (1)
 Context: ['i', 'flying'], Center: enjoy (2)
 Context: ['enjoy'], Center: flying (4)

Starting CBOW training...

Epoch 10/100 - Average Loss: 1.9969
Epoch 20/100 - Average Loss: 1.8481
Epoch 30/100 - Average Loss: 1.7568
Epoch 40/100 - Average Loss: 1.6807
Epoch 50/100 - Average Loss: 1.6051
Epoch 60/100 - Average Loss: 1.5254
Epoch 70/100 

#### Skip-gram
与根据周围上下文预测中心词的 CBOW 不同，skip-gram 则相反，它根据中心词预测周围的上下文词。例如，在句子“The cat sat on the mat”中，如果选择“sat”作为中心词，模型将尝试预测其上下文词 [“The”、“cat”、“on”、“the”]。

![skip-gram](image-4.png)

In [None]:
import numpy as np

def softmax(x):
    """
    Compute the softmax of vector x.
    We subtract the maximum value for numerical stability.
    """
    exps = np.exp(x - np.max(x))
    return exps / np.sum(exps)

# -------------------------
# Step 1: Define the Corpus
# -------------------------
corpus = [
    "I like deep learning",
    "I like NLP",
    "I enjoy flying"
]

print("Original Corpus:")
for sentence in corpus:
    print(" -", sentence)

# ------------------------------------
# Step 2: Preprocess the Corpus
# Lowercase and tokenize each sentence.
# ------------------------------------
sentences = [sentence.lower().split() for sentence in corpus]
print("\nTokenized Sentences:")
for sentence in sentences:
    print(" -", sentence)

# -----------------------------------------
# Step 3: Build the Vocabulary and Mappings
# -----------------------------------------
vocab = set()  # use a set to avoid duplicates
for sentence in sentences:
    for word in sentence:
        vocab.add(word)
vocab = list(vocab)  # convert to list to fix ordering

# Create dictionaries to map words to indices and vice-versa.
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for idx, word in enumerate(vocab)}

print("\nVocabulary (word to index mapping):")
for word, idx in word2idx.items():
    print(f" {word}: {idx}")

# -------------------------------------------------------
# Step 4: Generate Training Data (Skip-gram Pairs)
# -------------------------------------------------------
# For each word in a sentence, use a window of size 1 to collect context words.
window_size = 1
training_pairs = []  # will store tuples of (center_word_idx, context_word_idx)

for sentence in sentences:
    for idx, word in enumerate(sentence):
        center_word_idx = word2idx[word]
        # Determine the indices for the context window
        context_indices = list(range(max(0, idx - window_size), idx)) + \
                          list(range(idx + 1, min(len(sentence), idx + window_size + 1)))
        for context_idx in context_indices:
            context_word_idx = word2idx[sentence[context_idx]]
            training_pairs.append((center_word_idx, context_word_idx))

print("\nTraining Pairs (center word index, context word index):")
for center, context in training_pairs:
    print(f" Center: {idx2word[center]} ({center}), Context: {idx2word[context]} ({context})")

# ------------------------------------------------------
# Step 5: Initialize Hyperparameters and Weight Matrices
# ------------------------------------------------------
embedding_dim = 10       # size of the embedding vector
learning_rate = 0.01     # learning rate for SGD updates
epochs = 100             # number of epochs for training
vocab_size = len(vocab)  # number of unique words

# Weight matrices:
# W1: shape (vocab_size, embedding_dim) - maps one-hot input to embeddings
# W2: shape (embedding_dim, vocab_size) - maps embeddings to scores over vocabulary
W1 = np.random.rand(vocab_size, embedding_dim)
W2 = np.random.rand(embedding_dim, vocab_size)

# --------------------------------
# Step 6: Training the Model
# --------------------------------
print("\nStarting training...\n")
for epoch in range(epochs):
    loss_epoch = 0  # accumulate loss over the epoch
    
    # Iterate through each training pair
    for center_idx, context_idx in training_pairs:
        # ---------- Forward Pass ----------
        # 1. Look up the embedding for the center word (from W1)
        center_embedding = W1[center_idx]  # shape: (embedding_dim,)
        
        # 2. Compute scores for all words by multiplying the embedding with W2
        scores = np.dot(center_embedding, W2)  # shape: (vocab_size,)
        
        # 3. Apply softmax to get probabilities over the vocabulary
        y_pred = softmax(scores)  # shape: (vocab_size,)
        
        # 4. Compute the loss (negative log likelihood for the true context word)
        loss = -np.log(y_pred[context_idx] + 1e-7)  # add a small number to prevent log(0)
        loss_epoch += loss

        # ---------- Backward Pass ----------
        # Create a one-hot encoded vector for the true context word
        y_true = np.zeros(vocab_size)
        y_true[context_idx] = 1
        
        # Compute the error: derivative of loss with respect to the scores
        error = y_pred - y_true  # shape: (vocab_size,)
        
        # Compute gradients for W2 and the center embedding:
        # Gradient for W2 is the outer product of the center embedding and the error
        grad_W2 = np.outer(center_embedding, error)  # shape: (embedding_dim, vocab_size)
        
        # Gradient for the center embedding (W1 row) is the dot product of W2 and the error
        grad_center = np.dot(W2, error)  # shape: (embedding_dim,)
        
        # ---------- Update Weights ----------
        # Update the embedding for the center word in W1
        W1[center_idx] -= learning_rate * grad_center
        
        # Update W2 with the computed gradient
        W2 -= learning_rate * grad_W2

    # Print the average loss every 10 epochs for monitoring
    if (epoch + 1) % 10 == 0:
        avg_loss = loss_epoch / len(training_pairs)
        print(f"Epoch {epoch + 1}/{epochs} - Average Loss: {avg_loss:.4f}")

print("\nTraining complete!")

# --------------------------------------
# Step 7: Display the Learned Embeddings
# --------------------------------------
print("\nLearned Word Embeddings (from W1):")
for word, idx in word2idx.items():
    print(f" {word}: {W1[idx]}")

Original Corpus:
 - I like deep learning
 - I like NLP
 - I enjoy flying

Tokenized Sentences:
 - ['i', 'like', 'deep', 'learning']
 - ['i', 'like', 'nlp']
 - ['i', 'enjoy', 'flying']

Vocabulary (word to index mapping):
 learning: 0
 i: 1
 enjoy: 2
 nlp: 3
 flying: 4
 deep: 5
 like: 6

Training Pairs (center word index, context word index):
 Center: i (1), Context: like (6)
 Center: like (6), Context: i (1)
 Center: like (6), Context: deep (5)
 Center: deep (5), Context: like (6)
 Center: deep (5), Context: learning (0)
 Center: learning (0), Context: deep (5)
 Center: i (1), Context: like (6)
 Center: like (6), Context: i (1)
 Center: like (6), Context: nlp (3)
 Center: nlp (3), Context: like (6)
 Center: i (1), Context: enjoy (2)
 Center: enjoy (2), Context: i (1)
 Center: enjoy (2), Context: flying (4)
 Center: flying (4), Context: enjoy (2)

Starting training...

Epoch 10/100 - Average Loss: 1.7903
Epoch 20/100 - Average Loss: 1.6539
Epoch 30/100 - Average Loss: 1.5358
Epoch 40/10

### GloVe
Word2Vec 通过预测上下文来捕捉局部单词关系，而 GloVe 则采取了更广泛的方法，通过分解全局单词共现矩阵来导出低维嵌入。通过这样做，它可以发现从狭隘的逐句视角来看可能看不见的模式和关系。
本质上，GloVe 旨在以一种能够捕捉全局和局部背景的方式对单词之间的关系进行建模，从而生成能够反映语义相似性和有意义的单词关系（如类比）的词向量（例如，“国王”-“男人”+“女人”≈“女王”）。

![GloVe示例](image-5.png)

In [None]:
import numpy as np

def weighting_func(x, x_max=100, alpha=0.75):
    """
    Compute the weighting function for a co-occurrence count.
    If x < x_max, return (x / x_max)^alpha; otherwise return 1.
    """
    return (x / x_max) ** alpha if x < x_max else 1

# ---------------------------------------------------
# Step 1: Define the Corpus
# ---------------------------------------------------
corpus = [
    "I like deep learning",
    "I like NLP",
    "I enjoy flying"
]

print("Original Corpus:")
for sentence in corpus:
    print(" -", sentence)

# ---------------------------------------------------
# Step 2: Preprocess the Corpus
# Lowercase and tokenize each sentence.
# ---------------------------------------------------
sentences = [sentence.lower().split() for sentence in corpus]
print("\nTokenized Sentences:")
for sentence in sentences:
    print(" -", sentence)

# ---------------------------------------------------
# Step 3: Build the Vocabulary and Mappings
# ---------------------------------------------------
vocab = set()
for sentence in sentences:
    for word in sentence:
        vocab.add(word)
vocab = list(vocab)
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for idx, word in enumerate(vocab)}

print("\nVocabulary (word to index mapping):")
for word, idx in word2idx.items():
    print(f" {word}: {idx}")

# ---------------------------------------------------
# Step 4: Build the Co-occurrence Matrix
# We'll use a window size of 1 for simplicity.
# ---------------------------------------------------
vocab_size = len(vocab)
X = np.zeros((vocab_size, vocab_size))
window_size = 1

for sentence in sentences:
    sentence_length = len(sentence)
    for i, word in enumerate(sentence):
        word_idx = word2idx[word]
        # Define the window boundaries
        start = max(0, i - window_size)
        end = min(sentence_length, i + window_size + 1)
        for j in range(start, end):
            if i == j:
                continue  # Skip the word itself
            context_word = sentence[j]
            context_idx = word2idx[context_word]
            X[word_idx, context_idx] += 1

print("\nCo-occurrence Matrix (X):")
print(X)

# ---------------------------------------------------
# Step 5: Initialize GloVe Parameters
# ---------------------------------------------------
embedding_dim = 10      # Dimension of the embeddings
learning_rate = 0.05
epochs = 100

# Initialize word and context embeddings randomly
W = np.random.rand(vocab_size, embedding_dim)
W_context = np.random.rand(vocab_size, embedding_dim)

# Initialize bias terms for words and context words
b = np.random.rand(vocab_size)
b_context = np.random.rand(vocab_size)

# ---------------------------------------------------
# Step 6: Train the GloVe Model
# ---------------------------------------------------
# We minimize the cost: f(X_ij) * (w_i^T w_j~ + b_i + b_j~ - log(X_ij))^2
for epoch in range(epochs):
    total_cost = 0
    # Iterate over all nonzero co-occurrence entries
    for i in range(vocab_size):
        for j in range(vocab_size):
            if X[i, j] > 0:
                # Compute weighting for this co-occurrence
                weight = weighting_func(X[i, j])
                # Calculate the difference between prediction and log count
                diff = np.dot(W[i], W_context[j]) + b[i] + b_context[j] - np.log(X[i, j])
                cost = weight * (diff ** 2)
                total_cost += cost
                # Compute gradient (the factor 2 comes from the derivative of the square)
                grad = 2 * weight * diff
                # Update the parameters using gradient descent
                W[i] -= learning_rate * grad * W_context[j]
                W_context[j] -= learning_rate * grad * W[i]
                b[i] -= learning_rate * grad
                b_context[j] -= learning_rate * grad
    if (epoch + 1) % 10 == 0:
        print(f"Epoch {epoch + 1}/{epochs}, Total Cost: {total_cost:.4f}")

# Combine word and context embeddings as the final representation
final_embeddings = W + W_context

print("\nLearned GloVe Embeddings:")
for word, idx in word2idx.items():
    print(f" {word}: {final_embeddings[idx]}")

Original Corpus:
 - I like deep learning
 - I like NLP
 - I enjoy flying

Tokenized Sentences:
 - ['i', 'like', 'deep', 'learning']
 - ['i', 'like', 'nlp']
 - ['i', 'enjoy', 'flying']

Vocabulary (word to index mapping):
 learning: 0
 i: 1
 enjoy: 2
 nlp: 3
 flying: 4
 deep: 5
 like: 6

Co-occurrence Matrix (X):
[[0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0. 0. 2.]
 [0. 1. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1.]
 [0. 0. 1. 0. 0. 0. 0.]
 [1. 0. 0. 0. 0. 0. 1.]
 [0. 2. 0. 1. 0. 1. 0.]]
Epoch 10/100, Total Cost: 2.4720
Epoch 20/100, Total Cost: 1.0695
Epoch 30/100, Total Cost: 0.5459
Epoch 40/100, Total Cost: 0.3112
Epoch 50/100, Total Cost: 0.1927
Epoch 60/100, Total Cost: 0.1271
Epoch 70/100, Total Cost: 0.0882
Epoch 80/100, Total Cost: 0.0636
Epoch 90/100, Total Cost: 0.0472
Epoch 100/100, Total Cost: 0.0359

Learned GloVe Embeddings:
 learning: [ 0.5583196   0.77602033  1.15798507  1.52328133  1.46379766 -0.03221975
  0.76586303  0.65021835  1.23179541  0.88127723]
 i: [ 0.88461254  0.32290

Word2Vec 和 GloVe 等方法也有局限性——它们通常很难捕捉句子中的完整单词序列，尤其是当上下文跨越许多标记或整个段落时。这就是神经序列模型发挥作用的地方，它们建立在这些嵌入的基础之上。

## 利用神经元构建上下文

## 序列模型
### CNN - 捕获局部
捕获局部特征，主要用于分类

![CNN可视化](image-7.png)

### RNN - 引入记忆
循环神经网络 (RNN) 就像讲故事的人，在展开故事的同时回忆过去。RNN 采用了循环机制，通过隐藏状态构建时间记忆。RNN 按顺序处理输入（一次一个单词），同时保持此隐藏状态，即从先前的时间步骤中积累信息的向量。此隐藏状态在每个时间步骤使用当前输入和先前的隐藏状态进行更新，从而有效地传递序列上下文。
只要数据的序列或顺序很重要，RNN 就会表现出色。它们已广泛应用于情绪分析、机器翻译和文本生成等任务，但也扩展到非文本数据，如音频信号（语音识别）或金融时间序列（股票预测）。
Disadvantages：当序列变得很长时，RNN 可能会面临梯度消失或爆炸等挑战，这使得学习远距离关系变得困难。这个问题促使人们创建了更先进的架构，如 LSTM、GRU，以及最终的 Transformers，它们使用自注意力并行处理 token。

![RNN可视化](image-6.png)

### LSTM - 长短期记忆网络
RNN 有一个明显的局限性：当它们处理较长的序列时，它们很难从序列的开头保留信息。长短期记忆 (LSTM) 网络是一种专门用于克服这一挑战的 RNN。
LSTM 拥有复杂的记忆系统，能够跟踪长序列中的重要信息，而不会被无关细节所困扰。这种能力对于上下文和长期依赖关系很重要的任务至关重要，例如理解段落的含义或根据历史数据预测未来股票价格。
每个 LSTM 的核心都是一个门控架构，由三个关键组件组成：输入门、遗忘门和输出门，它们管理信息流入和流出 LSTM 的内部记忆或单元状态。这些门会评估新信息和现有信息，从而使 LSTM 能够选择性地更新其记忆。
例如，输入门决定是否应将新信息添加到记忆中，遗忘门决定是否应丢弃旧信息，输出门选择哪些信息应该影响网络的输出。这种选择性过程确保 LSTM 只保留最相关的细节，同时过滤掉其余信息。通过动态调整这些门，LSTM 可以平衡记住重要信息和丢弃不必要的信息。这种选择性记忆过程使 LSTM 能够处理比传统 RNN 更长的序列，使其在各种应用中非常强大。

![LSTM可视化](image-8.png)

### CNN、RNN和LSTM比对
| Model | Strengths  优势          | Limitations  限制   | Typical Use Cases  典型用例  |
|-------|------------------------|-------------------|--------------------------|
| CNN   | 擅长捕捉局部模式（例如，检测 n-gram） | 固定窗口大小限制上下文捕获        | 文本分类                     |
|       | 可并行化，速度非常快                 | 无法有效建模长期依赖关系          | NLP 中的特征提取               |
|       | 局部特征提取的计算成本低              | 不适用于顺序数据处理             | 图像识别                     |
| RNN   | 按顺序处理输入，保留时间上下文        | 长序列容易出现梯度消失或爆炸      |   语言建模                   |
|       | 处理可变长度序列                     | 捕获长距离依赖关系的能力有限      | 语音识别                     |
|       | 序列建模的简单架构                   | 顺序性阻碍了并行处理              | 基本序列预测                   |
| LSTM  | 门控架构克服了梯度消失问题            | 更复杂，计算量更大                | 机器翻译                     |
|       | 比简单的 RNN 更善于捕捉长程依赖关系   | 仍然受到顺序处理的限制，影响并行性  | 机器翻译                     |
|       | 随着时间的推移有选择地保留重要信息     | 由于复杂性增加，训练时间更长       | 时间序列预测                   |


## 使用编码器-解码器学习短语表征
我们已经了解了 RNN 和 LSTM 如何通过一步一步处理输入来处理序列，同时通过隐藏状态保持上下文。这种方法非常适合预测下一个单词或对句子的情感进行分类等任务，但许多现实世界的问题需要将整个输入序列（如英文段落）映射到完整的输出序列（如法语翻译）。仅仅预测下一个标记或为整个序列分配一个标签是不够的。
例如，将“我喜欢猫”翻译成“我爱猫”，需要模型阅读并完全理解完整的英语句子，然后才能从头到尾生成法语句子。经典的 RNN 将所有信息压缩到其最终隐藏状态中。但是，如果输入的句子更复杂——比如“昨天，在大型音乐厅演出的杰出音乐家被邀请明年夏天来演出”——单个隐藏状态最终可能会丢失或混淆关键细节，尤其是当“昨天”等重要元素出现在开头，而“明年夏天”等关键上下文出现在结尾时。
这一挑战被称为瓶颈问题：一旦 RNN 处理了整个序列，它必须将所有信息压缩成一个压缩向量，然后才能生成输出。如果该向量无法捕捉到基本细微差别（例如事件的时间或不同主题的具体角色），则生成的翻译或摘要可能会变得杂乱无章。简而言之，序列到序列模型中的瓶颈就像将整部小说塞进一条推文中！我们不能这样做！
将 RNN 分为两个不同的部分——编码器和解码器——以便每个部分都能专注于其角色。
编码器：仔细处理整个源句子、吸收细节并构建内部摘要的“听众”。

![编码器架构](image-9.png)

解码器：使用该摘要来生成另一种语言的新序列，甚至以摘要或标题等其他形式生成的“讲故事的人”。

![解码器架构](image-10.png)

## 生成建模
### VAE（变分自动编码器）
![VAE架构](image-11.png)
### GAN（生成对抗网络）
GAN 由两个神经网络组成——生成器和鉴别器，它们在零和游戏中同时训练。生成器的目标是生成与真实数据无法区分的输出（例如图像），而鉴别器的目标是正确分类给定样本是真实的还是生成的。这种动态相互作用创造了一个强大的反馈循环，两个网络通过竞争不断改进。
![GAN架构](image-12.png)
### 总结
|方面 |VAE |GAN
|----|---------------------|-----------------------
|方法      |概率建模：使用均值和方差，通过 KL 散度正则化器将输入映射到潜在分布。|对抗性训练：在极小最大游戏中使用生成器和鉴别器。
|损失函数  |重建损失和 KL 散度损失的组合。                                   |生成器（用于欺骗鉴别器）和鉴别器（用于区分真假）的对抗性损失函数。
|训练稳定性|通常更稳定且更容易训练，但输出可能不太敏锐。                       |训练可能不稳定（例如模式崩溃），但如果成功，则可以产生高度逼真的输出。
|输出质量  |通常会产生多样化的样本，但有时会以牺牲图像清晰度为代价。            |尽管多样性可能是一个挑战，但能够产生逼真、细致的图像。
|潜在空间  |提供可用于插值的平滑且可解释的潜在空间。                           |没有强制执行明确的潜在空间；重点是生成真实的样本。

## 注意力机制
模型在生成输出时如何调用和利用输入序列中最相关的部分，尤其是在处理长数据或复杂数据时？解决方案是注意力机制。
注意力机制的引入是为了解决早期编码器-解码器模型中的一个紧迫挑战：将输入序列的相关信息压缩为单个上下文向量通常会导致丢失关键细节，尤其是对于长数据或复杂数据。
注意力机制不再依赖于一个固定的摘要，而是允许模型在输出生成的每个步骤中动态地关注输入的不同部分。

![注意力如何只关注重要信息](image-13.png)

想象一下，您正在观看一场戏剧演出。在传统的编码器-解码器模型中，上下文向量就像一盏昏暗的聚光灯，试图照亮整个舞台——许多重要的演员（或细节）仍然在阴影中。有了注意力，模型就会获得多个可调节的聚光灯，可以根据当时的需求瞄准舞台的特定区域。对于它生成的每个单词，模型都会照亮输入中最相关的部分，确保不会丢失细微的差别，并且最终输出保持连贯且语境丰富。
这种机制的核心是一个简单而强大的想法，涉及三个组成部分：查询、键和值（通常缩写为 Q、K、V）。将查询视为您现在要问的问题 - 我需要什么信息？每个输入元素都带有一个键（用作描述性标签）和一个值（即该元素中包含的实际信息）。该模型通过计算查询和每个键之间的点积来计算对齐分数，缩放这些分数，然后应用 softmax 函数将它们转换为概率。此过程确定输入的哪些部分最相关 - 就像评估一个组织良好的笔记本中各种笔记的重要性一样。
1、比较相似度
$$
    score=Q⋅K
$$
2、转换为概率（scalling和softmax）
$$
    \alpha_{i}=\operatorname{softmax}\left(\frac{Q \cdot K_{i}}{\sqrt{d_{k}}}\right)=\frac{e^{\frac{Q \cdot K_{i}}{\sqrt{d_{k}}}}}{\sum_{j} e^{\frac{Q \cdot K_{j}}{\sqrt{d_{k}}}}}
$$
3、创建自定义摘要（加权和）
$$
    \text { Output }=\sum_{i} \alpha_{i} V_{i}
$$

![注意力机制](image-14.png)

注意力机制使模型能够自适应地记住和利用最相关的细节，从而产生更准确、更流畅的输出。
### Transformer架构
Transformer 利用注意力机制让句子中的每个单词直接与其他每个单词交互，从而消除了 RNN 和 LSTM 固有的顺序瓶颈。
#### 自注意力机制
Transformer 架构的核心是自注意力机制，它计算一组权重，描述输入序列中每个单词与其他每个单词的相关性。想象一下，当你阅读一个复杂的段落时，在任何给定时刻，你都会本能地关注那些对理解当前上下文最重要的单词。同样，在 Transformer 中，自注意力层计算所有标记对之间的注意力分数，使模型能够在编码给定单词时动态权衡每个单词的影响。此过程会产生上下文化的表示，捕捉整个序列中微妙的依赖关系和关系。

![原始transformer架构可视化](image-15.png)

In [None]:
import numpy as np

# Sample input: a sentence represented as word embeddings
sentence = np.array([
    [0.1, 0.2, 0.3, 0.4],   # "it"
    [0.5, 0.6, 0.7, 0.8],   # "refers"
    [0.9, 1.0, 1.1, 1.2],   # "to"
    [1.3, 1.4, 1.5, 1.6],   # "robot"
    [1.7, 1.8, 1.9, 2.0]    # "."
])

def self_attention(query, keys, values):
    """
    Demonstrates self-attention for one query with detailed outputs at each step.
    
    Parameters:
        query: A single query vector.
        keys: Multiple key vectors.
        values: Multiple value vectors.
    
    Returns:
        output: The weighted sum of the values (the attention output).
        attention_weights: The computed attention weights.
    """
    print("=== Self-Attention Computation ===")
    
    # Step 1: Dot Product between Query and Keys
    print("\nStep 1: Dot Product (Similarity Calculation)")
    print("Original query:", query)
    query = query[np.newaxis, :]  # Reshape query for matrix multiplication
    print("Reshaped query (for multiplication):", query)
    
    keys_transposed = keys.T      # Transpose keys for proper alignment
    print("Transposed keys:\n", keys_transposed)
    
    dot_product = np.dot(query, keys_transposed)
    print("Resulting dot product:", dot_product)
    
    # Step 2: Apply Softmax to Convert Dot Products to Probabilities
    print("\nStep 2: Softmax Normalization")
    exp_dot_product = np.exp(dot_product)
    print("Exponentiated dot product:", exp_dot_product)
    
    sum_exp = exp_dot_product.sum(axis=1, keepdims=True)
    print("Sum of exponentiated scores:", sum_exp)
    
    attention_weights = exp_dot_product / sum_exp
    print("Attention weights after softmax normalization:", attention_weights)
    
    # Step 3: Weighted Sum of Values to Get the Output
    print("\nStep 3: Weighted Sum of Values (Creating the Output)")
    output = np.dot(attention_weights, values)
    print("Output vector (weighted sum of values):", output)
    
    return output, attention_weights

# "it" is our query; the words "refers", "to", "robot" act as keys and values.
query = sentence[0]          # "it"
keys = sentence[1:-1]        # "refers", "to", "robot"
values = sentence[1:-1]      # In this simple example, keys and values are the same

# Perform self-attention computation
output, attn_weights = self_attention(query, keys, values)

print("\n=== Final Results ===")
print("Final Output of Self-Attention:", output)
print("Final Attention Weights:", attn_weights)

=== Self-Attention Computation ===

Step 1: Dot Product (Similarity Calculation)
Original query: [0.1 0.2 0.3 0.4]
Reshaped query (for multiplication): [[0.1 0.2 0.3 0.4]]
Transposed keys:
 [[0.5 0.9 1.3]
 [0.6 1.  1.4]
 [0.7 1.1 1.5]
 [0.8 1.2 1.6]]
Resulting dot product: [[0.7 1.1 1.5]]

Step 2: Softmax Normalization
Exponentiated dot product: [[2.01375271 3.00416602 4.48168907]]
Sum of exponentiated scores: [[9.4996078]]
Attention weights after softmax normalization: [[0.21198272 0.31624106 0.47177622]]

Step 3: Weighted Sum of Values (Creating the Output)
Output vector (weighted sum of values): [[1.0039174 1.1039174 1.2039174 1.3039174]]

=== Final Results ===
Final Output of Self-Attention: [[1.0039174 1.1039174 1.2039174 1.3039174]]
Final Attention Weights: [[0.21198272 0.31624106 0.47177622]]


#### 位置编码
由于自注意力将所有 token 视为没有固有顺序的集合，因此位置编码将有关每个 token 位置的信息注入模型。可以将其想象为在书中添加章节和页码：虽然内容保持不变，但附加信息有助于读者理解叙述的结构和流程。通过将这些位置信号与注意力衍生的上下文表示相结合，Transformer 可以保持连贯语言理解所必需的顺序和结构。
学习绝对位置嵌入
用不同的地址标记每个位置。
相对位置编码
用标记之间的距离。
旋转位置嵌入
它们将基于旋转的变换应用于标记嵌入，以便位置信息与标记表示不断交织在一起。这可以提高非常长序列的性能，优雅地扩展到训练中看到的位置之外。将每个标记想象成有一个小箭头（一个矢量），该箭头在序列中每向前一步都会旋转更多。当您移动到下一个标记时，您会进一步旋转箭头，连续且循环地嵌入位置。RoPE 将基于旋转的变换应用于标记嵌入，因此它们的角度与标记在序列中的位置相关。这将位置直接与每个标记的表示联系起来。
#### 编码器-解码器结构
![基本的编码器-解码器架构](image-16.png)

#### RNN/LSTM和Transformer差异比对
|方面 |RNN/LSTM |Transformer
|-----|-------------------|-----------------
|处理方法    |按顺序处理数据；并行性有限        |使用自注意力机制并行处理数据
|长距离依赖  |梯度消失风险；上下文有限          |通过自注意力机制有效捕获长程依赖关系
|训练效率    |由于顺序计算而速度较慢            |由于可并行架构，训练速度更快
|架构       |依赖于循环；可以很深入，但更难训练  |采用层规范化、残差连接和多头注意力

## 用于语言理解的双向Transformer
BERT就是这种机制的典型示例

## 评估大语言模型
### 内在评估指标
#### 困惑度
困惑度衡量概率模型（如语言模型）预测样本的准确程度。它告诉我们模型在看到测试数据时的惊讶程度。困惑度越低，表示模型的惊讶程度越低，这通常表明它能更好地预测句子中的下一个单词。
#### BLEU
它衡量生成的文本与一组参考文本（基本事实）的匹配程度。想象一下，你写了一篇文章，然后将它与一篇你知道很优秀的范文进行比较。你可能会寻找两篇文章中都出现的常用短语或模式。BLEU 的作用类似——它将生成的文本中的 n-gram（单词组）与参考文本中的 n-gram 进行比较。重叠的 n-gram 越多，得分就越高
#### FID
FID 通过测量生成特征的分布与学习特征空间中真实特征之间的距离来评估生成样本的质量（通常使用预训练网络（如图像的 Inception）提取）。
### 外在评估指标
问答
文本分类
命名实体识别
语音转文本
准确度
偏差指标

SFT和RLHF

Pre-training
监督学习
无监督学习
自监督学习
    因果策略 - GPT
    掩蔽策略 - BERT
    对比策略 - CLIP
    基于语音的范式 - Whisper
    基于扩散的范式 - DALLE
预训练流程
数据收集-预处理-模块初始化-自监督任务-损失计算-参数更新-大规模迭代

Post-training、微调和调整
什么是微调？
本质上， 微调采用预训练模型（已经具有丰富的通用知识），并在较小的专业数据集上进一步训练它。

![微调过程概述](image-17.png)

迁移学习 - 微调的基础
迁移学习涉及使用从解决一个问题（源）中获得的知识来改进相关问题（目标）的学习。它可以加快训练速度，减少对海量数据集的需求，并提高性能——当特定于任务的数据有限时尤其有益。

![迁移学习概述](image-18.png)

全面微调

PEFT（参数高效微调）
PEFT 背后的核心思想简单而强大：您无需更新每个参数，只需调整一小部分即可。这大大降低了计算成本、数据需求和过度拟合风险。
基于特征的微调
冻结预训练层-添加新层-仅训练新层
选择性微调
选择性微调进一步完善了这个想法。您无需冻结所有早期层，而是有选择地仅更新与您的任务高度相关的某些预训练层。
冻结大多数层-有选择的更新关键层
基于适配器的微调
插入适配器-冻结预训练权重-仅训练适配器
LoRA（Low-rank adaptation）
以小而简化的（低秩）形式表示微调更新，而不是直接调整参数：
冻结预训练权重-注入小型低秩矩阵-仅对低秩矩阵进行微调

![参数微调总结](image-19.png)

指令微调
指令微调是一种特殊的微调形式，旨在使语言模型更好地理解和响应人类指令。我们不是简单地向模型提供来自书籍、文章或互联网的更一般的示例，而是创建一个特定的数据集，将自然语言指令与所需的输出配对。关键思想很简单：明确地教模型当人类给出指令时，良好的响应是什么样的
创建指令数据集
监督微调
增强模型的多功能性

RLHF（人类反馈进行强化学习）

![RLHF概述](image-20.png)

从预训练开始（Frozen LM：冻结了该模型参数，将其作为基准来衡量模型在微调过程中的变化程度）
监督微调
训练奖励模型
使用PPO（proximal policy optimization）进行强化学习
避免过度优化 - 使用Kullback–Leibler (KL) divergence加入惩罚

微调常见陷阱
过拟合
数据不匹配
计算资源

模型部署优化
知识蒸馏
知识蒸馏的核心是训练一个较小、较简单的模型（学生模型）来模仿较大、高度准确的教师模型的预测。
它的工作原理如下：首先，你要训练一个教师模型，通常是一个非常庞大、功能强大的网络，比如 GPT-4.5。一旦它经过精细调整并具有高度准确性，你就可以引入一个较小的学生模型——它可能具有更少的层、更少的参数，或者只是一个专为速度和效率而设计的更轻的结构。奇迹发生在下一步：训练学生模型。
学生不是仅使用标准标记数据（硬标签）从头开始训练学生，而是通过密切观察老师的预测来学习。学生看到正确答案（硬标签）并研究老师的软概率——老师为每个可能的输出分配的详细概率分布。

![知识蒸馏](image-21.png)

为了确保有效的知识转移，训练通常结合两种损失函数：通常的任务特定损失（衡量学生预测正确答案的准确程度）和特殊的蒸馏损失 （衡量学生与老师的软预测的匹配程度）。这就像教一个人不仅要得到正确的答案，还要像他们的导师那样推理。
量化
量化涉及降低这些数字的精度。

![量化示例](image-22.png)

在训练后量化 - 首先以高精度全面训练模型，然后将模型的权重和激活转换为较低精度的格式。这个过程简单快捷，但准确性可能会略有下降。
量化感知训练 - 训练过程中模拟量化过程，从一开始就教会模型适应较低精度的数字。由于模型从一开始就意识到量化，因此准确率往往更高。
模型修剪
神经网络中并非每个连接（权重）或神经元都对其最终性能有重大贡献。 模型修剪就是仔细修剪这些不太重要的部分，留下更精简、更快、更高效的网络。

![修剪示例](image-23.png)

权重修剪 - 识别出对网络准确性贡献不大的单个权重并将其设置为零。
神经元修剪 - 移除整个神经元或过滤器。这类似于切断整个树枝而不是几根小枝，从而产生更简单、更适合硬件的结构，更易于运行且运行速度更快，尤其是在专用硬件上。


扩展大语言模型
MoE（minture of experts）模型
专家：经过训练的子网络可以处理某些输入方面（例如数学、代码或日常语言）。
路由器：一种门控机制，决定每个令牌或输入段使用哪个专家。

![MoE架构](image-24.png)

推理模型
推理模型旨在分解需要多个步骤的任务，例如解决棘手的数学问题、调试一段代码或回答基于逻辑的问题。
扩展上下文窗口
位置外推和内插
滑动窗口和分段
内存高效的注意力机制
硬件优化和flashattention

视觉模型
Vision Transformer（ViT）
将图像转换成 Transformers 可以自然处理的东西，比如视觉句子。

![视觉模型架构](image-25.png)

工作原理
图像补丁：eg：将28*28像素的图像切成7*7像素的块
块的线性嵌入：Vision Transformers 首先将每个块展平 - 想象将每个图块展开成一长串像素值。这会为每个块创建一个长长的数字列表。然后，该模型使用一种称为线性投影的东西，这是一种简单的神经网络层，可将这些数字列表转换为称为块嵌入的特殊数字代码。
位置嵌入：默认情况下，Transformer 是无序的 。但是图像要求有序，为了解决这个问题，Vision Transformer 添加了称为位置嵌入的特殊标记。
Transformer编码器：这是 Vision Transformer 的真正强大之处，由配备两个关键组件的层组成：自注意力层和前馈层。自注意力层允许每个视觉词仔细查看图像中的所有其他视觉词。想象一下，每个图像块都向其他每个图像块低声询问：“你和我有关吗？我们属于同一个物体吗？”例如，带有猫耳朵的图像块将密切关注猫的脸、尾巴和爪子的图像块，意识到它们属于一起形成一只完整的猫。前馈层进一步细化理解，确保每个图像块嵌入都包含更丰富的视觉含义。
分类头：
蒙版图像建模
MAE编码器：此部分通常是 Vision Transformer。它只查看可见的块，就像只接收拼图的几个碎片一样。它的工作是从这些有限的碎片中理解尽可能多的背景信息，捕捉可见部分的丰富视觉表现。
MAE解码器： 编码器完成工作后，解码器开始猜测缺失的补丁应该是什么样子，完全根据编码器的见解重建图像。解码器通常更简单、更快，专为重建这些缺失的补丁而设计。
视觉对比学习 - CLIP
图像编码器：可以将其视为 CLIP 的眼睛 。它获取图像，将其分解为视觉特征（图片中的重要图案或元素），然后将其以数字形式表示。此表示称为图像嵌入 。
文本编码器：可以将其视为 CLIP 的大脑 ，但针对的是文字。它读取字幕并将其转换为称为文本嵌入的数字表示。

图像生成-扩散模型

![扩散模型与VAE/GAN对比](image-26.png)

扩散模型如何工作的？
正向扩散 - 噪声添加
从一张原始的高质量图像开始（例如，阳光照耀的田野中一朵鲜艳的向日葵），想象通过在每个步骤中注入少量高斯噪声来系统地破坏它。每次增量添加都会使图像略微模糊并抹去精细细节。重复此过程数百次甚至数千次，原始图像逐渐失去其结构，直到完全变成随机噪声——与充满静电的屏幕难以区分。

![正向扩散过程](image-27.png)

反向扩散 - 去噪阶段
在此阶段，模型学习反转噪声添加过程。在训练过程中，复杂的神经网络（通常基于 U-Net 架构构建）会进行优化，以预测和减去每一步的噪声。想象一下，从一张几乎完全嘈杂的图像开始；网络通过估计在每次添加少量噪声之前图像的样子来迭代地对其进行细化。通过这种迭代清理，模型逐渐从混乱中重建出连贯而详细的图像。

![反向扩散阶段](image-28.png)

Diffusion Transformers（DiT）
补丁化和标记化：将潜在图像分割成固定大小的补丁。每个补丁线性嵌入到标记中，并添加位置嵌入以保持空间上下文。
基于Transformer的处理：标记通过多个 Transformer 块传递，这些块应用多头自注意力来捕获局部和全局依赖关系。条件信息（如噪声水平或类标签）通过交叉注意力或自适应层规范化等机制纳入，使模型能够有效地指导去噪过程。
迭代去噪：训练网络逐步预测潜在表示并从潜在表示中减去噪声。经过多次迭代，噪声潜在表示逐渐细化为连贯的高质量图像，然后由 VAE 的解码器对其进行解码。

潜在扩散模型（LDM）
LDM 不是直接在全像素空间中执行扩散过程，而是在低维潜在空间中工作。此潜在空间由编码器网络创建，该网络将高分辨率图像压缩为紧凑表示 - 一种保留基本视觉信息同时丢弃冗余细节的高效代码。通过在这个缩小的空间中操作，计算负荷显著降低，从而能够在不影响质量的情况下更快地生成图像。
高分辨率图像通过编码器，编码器将其转换为潜在表示。
使用诸如 U-Net 或扩散变换器之类的去噪网络将扩散过程（包括前向噪声添加和反向去噪）应用于此潜在代码。
解码器网络将细化的潜在表示重建为全分辨率、视觉丰富的图像。

音频生成
音频信号的特征提取
    频谱图
    梅尔频率倒谱系数
    色度特征
预处理

AudioCraft
MusicGen： 专注于根据文本提示生成音乐。
AudioGen： 用于创建一般音频效果（例如环境声音、脚步声等）。
EnCodec： 用于高效音频压缩和生成的神经音频编解码器。

# 与人工智能交互
n-shotprompting
chain-of-thought prompting（思路链提示）
role prompting（角色提示）
negative prompting（负面提示）

# RAG
 检索器：快速扫描文档集合（可以是从一组网页到内部 Wiki 或知识库的任何内容），并返回与用户查询最相关的段落。
 生成器 （通常是 LLM）：通过将其所知与刚刚检索到的文本相结合来制作连贯的响应。
 在典型的 RAG 管道中，用户查询首先进入检索器 ，检索器根据相关性对文档进行评分和排序。接下来，排名靠前的文档会以某种结构化格式附加或添加到查询中，例如“上下文：[检索到的段落]。问题：[用户查询]”。然后， 生成器会处理此提示，将检索到的内容编织到其最终输出中。
 ![RAG工作原理](image-29.png)

# 实际案例
![GenAI开发过程](image-30.png)

## 文本到文本生成系统
![文本到文本生成系统高级设计]](image-31.png)
|阶段 |目的|
|---------- |-------------------------|
|数据管道和预处理 |初始阶段是收集、清理、标准化和组织原始数据，为人工智能模型创建高质量的训练材料。
|模型架构训练     |在学习阶段，模型使用特定的人工智能技术和模式进行训练，以理解和生成类似人类的文本。
|推理管道        |在执行阶段，训练有素的系统处理用户输入并实时生成适当的响应。
|系统架构和部署   |实施阶段侧重于建立基础设施，使人工智能系统可用、可扩展、可靠，可供实际使用。

### 数据管道和预处理
文本清理和规范化
标记化策略
创建训练数据集
数据质量和过滤机制
![数据管道和预处理](image-32.png)
### 模型架构训练
Transformer架构
嵌入技术：语言模型可以采用从广泛的 BPE 词汇表中学习到的标记嵌入，并结合旋转位置嵌入 (RoPE)。
训练目标
调优策略
模型评估指标
### 推理管道
提示工程与格式化
采样策略
响应生成和过滤
上下文窗口管理
安全过滤器和内容审核
![推理流程](image-33.png)
### 系统架构和部署
API设计和请求处理
负载平衡和扩展策略
模型服务基础设施
监控和日志记录
测试框架
![系统架构](image-34.png)

## 文本到图像生成系统
视觉解读引擎： 分析客户的描述，分解艺术元素，将抽象概念转化为精准的技术指令。它还执行关键的安全检查，并确保所有请求符合系统的功能和准则。
图像创建核心： 这是真正产生魔力的地方。它使用先进的人工智能技术，逐步从头开始构建图像，通过数千次细微调整对其进行改进，直到它们符合客户的意图。该系统维护多个协同工作的专用神经网络，每个网络都专注于图像创建的不同方面。
技术协调器： 此服务可同时处理大量创建请求，并在需要时分配计算能力。它还管理系统资源，确保每个图像生成过程顺利运行，不会干扰其他过程。如果出现任何技术问题，它会迅速解决，以保持不间断的服务。
![高级设计](image-35.png)
### 数据管道和预处理
文本-图形对收集
字幕处理
图像预处理
数据质量和过滤机制
![数据处理流程](image-36.png)
### 模型架构训练
模型架构：基于扩散和自回归的方法
文本编码
训练目标
微调策略
模型评估：扩散模型通常使用 FID 和 CLIP 分数来评估图像质量和文本对齐。自回归模型主要使用基于可能性的指标，如 NLL 和 BPD 。
![训练过程](image-37.png)
### 推理管道
提示处理和优化
生成过程控制（模型）
后期处理和增强
安全过滤器和内容审核
![推理过程](image-38.png)
### 系统架构和部署
API设计和请求处理
负载平衡和扩展策略
模型服务基础设施
监控和日志记录
输出处理器
![系统架构](image-39.png)

## 文本转语音生成系统
![生成流程](image-40.png)