In [6]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

In [8]:
corpus = [
    "hotel room price",  # 文档1
    "service hotel"      # 文档2  
]

vec = CountVectorizer(stop_words=list(ENGLISH_STOP_WORDS))
X = vec.fit_transform(corpus)

print("词汇表:", vec.vocabulary_)

词汇表: {'hotel': 0, 'room': 2, 'price': 1, 'service': 3}


vec.vocabulary_ 中的词汇是按照字母顺序排列的。

为什么是这样？

1. 默认行为：CountVectorizer 和 TfidfVectorizer 默认会按词汇的字母顺序对特征进行排序， 内部使用 sorted(vocabulary) 来确定特征顺序。
2. 一致性：这样确保了每次运行都得到相同的特征顺序， 字母排序让结果在不同运行中可复现。
3. 可预测性：便于后续的模型处理和解释， 统一顺序对模型训练和解释特征重要。

In [3]:
print("向量化结果:")
print(X.toarray())

向量化结果:
[[1 1 1 0]
 [1 0 0 1]]


详细解释：

第一行 [1 1 1 0] 对应词汇表顺序：
  - 索引0: 'hotel' → 文档1包含，所以是1
  - 索引1: 'room'  → 文档1包含，所以是1  
  - 索引2: 'price' → 文档1包含，所以是1
  - 索引3: 'service' → 文档1不包含，所以是0

第二行 [1 0 0 1] 对应词汇表顺序：
  - 索引0: 'hotel' → 文档2包含，所以是1ß
  - 索引1: 'room'  → 文档2不包含，所以是0
  - 索引2: 'price' → 文档2不包含，所以是0
  - 索引3: 'service' → 文档2包含，所以是1

这就是**词袋模型（Bag of Words）模型**的核心思想：将文档表示为词汇表中各个词出现与否的向量，通过计数或二进制标记来表示文档特征。

词袋模型的局限性

为什么词袋模型不关心顺序？

简单性：只关注词汇的存在与否，不考虑语法和语义
计算效率：避免了复杂的序列分析
数学基础：基于"词汇独立假设"
这确实是个问题！

```py
doc1 = "I love this hotel room"
doc2 = "This hotel room I love"

# 两者向量化后可能得到相同的特征向量
# 因为都包含：'hotel', 'room', 'love', 'this'
# 但语义完全不同！
```

现代解决方案：

使用 n-gram 模型（考虑连续词组）
使用 词嵌入（如 Word2Vec, GloVe）
使用 上下文模型（如 BERT）

In [11]:
X1 = vec.fit_transform(["I love hotel room", "love this hotel room"])
print("词汇表:", vec.vocabulary_) # {'love': 1, 'hotel': 0, 'room': 2}, "this" & "I" are removed
print(X1.toarray())

词汇表: {'love': 1, 'hotel': 0, 'room': 2}
[[1 1 1]
 [1 1 1]]
