## FeatureHasher 使用详解

FeatureHasher 是 scikit-learn 中用于特征哈希（Hash Trick）的工具，特别适合处理大规模高维数据（如文本特征）。与 DictVectorizer 不同，它不需要预先学习特征字典，而是直接通过哈希函数将特征映射到固定维度的向量空间。

In [2]:
from sklearn.feature_extraction import FeatureHasher
import numpy as np

FeatureHasher(
    n_features=1048576,  # 输出特征的维度（哈希桶数量）
    input_type='dict',   # 输入数据类型：'dict', 'pair' 或 'string'
    dtype=np.float64,    # 输出数据类型
    alternate_sign=True  # 是否使用交替符号减少哈希冲突
)

### 核心参数说明
 * n_features：
    - 控制输出特征向量的维度
    - 值越大，哈希冲突概率越低，但会增加内存消耗
    - 通常设为 2 的幂（如 2^20 = 1,048,576）
 * input_type：
    - dict：接受字典格式输入（默认）
    - pair：接受 (feature_name, value) 元组列表
    - string：接受字符串（每个字符串作为一个特征）
 * alternate_sign：
    - 使用哈希值的符号作为特征值的符号
    - 可有效减少哈希冲突带来的偏差

### 主要方法
1. transform(X)
   - 将输入数据转换为特征矩阵
   - 返回稀疏矩阵（默认）
2. fit_transform(X, y=None)
   - 对 FeatureHasher 而言，等同于 transform
   - 为保持 API 一致性而存在

### 样例代码
下面是一个完整的示例，展示如何使用 FeatureHasher 处理不同格式的输入数据：

In [8]:
from sklearn.feature_extraction import FeatureHasher
import numpy as np

# 示例 1：使用字典格式输入
dict_data = [
    {'city': '广州', 'temperature': 30, 'humidity': 'high'},
    {'city': '上海', 'temperature': 28, 'humidity': 'medium'},
    {'city': '广州', 'temperature': 30, 'humidity': 'high'}
]

# 创建 FeatureHasher 实例，设置输出维度为 8
hasher = FeatureHasher(n_features=8, input_type='dict')

# 转换数据
hashed_dict = hasher.transform(dict_data)

print("字典输入转换结果（稀疏矩阵格式）:")
print(hashed_dict.toarray())  # 转换为密集矩阵显示



字典输入转换结果（稀疏矩阵格式）:
[[  0. -30.   1.   0.  -1.   0.   0.   0.]
 [  0. -27.   0.   0.   0.   1.   0.   0.]
 [  0. -30.   1.   0.  -1.   0.   0.   0.]]


In [5]:

# 示例 2：使用 (feature_name, value) 元组列表输入
pair_data = [
    [('city', '北京'), ('temperature', 22), ('humidity', 'high')],
    [('city', '上海'), ('temperature', 28), ('humidity', 'medium')],
    [('city', '广州'), ('temperature', 30), ('humidity', 'high')]
]

# 创建 FeatureHasher 实例，指定输入类型为 'pair'
hasher = FeatureHasher(n_features=8, input_type='pair')

# 转换数据
hashed_pairs = hasher.transform(pair_data)

print("\n元组列表输入转换结果:")
print(hashed_pairs.toarray())




元组列表输入转换结果:
[[  0. -22.   0.   0.  -2.   0.   0.   0.]
 [  0. -27.   0.   0.   0.   1.   0.   0.]
 [  0. -30.   1.   0.  -1.   0.   0.   0.]]


In [6]:

# 示例 3：文本特征哈希（使用字符串输入）
text_data = [
    "天气 晴朗 温度 25",
    "天气 多云 温度 22",
    "天气 下雨 温度 18"
]

# 将每个文本拆分为词列表
tokenized_data = [text.split() for text in text_data]

# 创建 FeatureHasher 实例，指定输入类型为 'string'
hasher = FeatureHasher(n_features=8, input_type='string')

# 转换数据
hashed_text = hasher.transform(tokenized_data)

print("\n文本特征哈希结果:")
print(hashed_text.toarray())


文本特征哈希结果:
[[ 0.  0.  0.  0.  1.  1.  0.  2.]
 [ 0.  1.  0.  0. -1.  1.  0.  1.]
 [ 0.  0.  0.  0.  1.  1.  1.  1.]]


### 注意事项
 * 哈希冲突：
    - 当 n_features 较小时可能发生
    - alternate_sign=True 可缓解此问题
 * 不可逆性：
    - 无法从哈希结果反推原始特征
    - 适用于一次性特征处理（如训练阶段）
 * 稀疏矩阵：
    - 输出默认是稀疏矩阵，节省内存
    - 需要密集矩阵时可调用 .toarray()
 * 应用场景：
    - 大规模文本分类
    - 实时机器学习（无需预先拟合）
    - 高维特征空间降维

## FeatureHasher 哈希原理详解


FeatureHasher 采用 特征哈希技术（Hash Trick） 将任意数量的特征映射到固定维度的向量空间。这种方法无需预先学习特征字典，特别适合处理大规模高维数据（如文本）。

### 核心哈希公式
对于每个特征 (name, value)，其哈希过程可表示为：
1. 计算哈希值：
    ```python
    h = hash_function(name)
    ```
 * hash_function 通常是 MurmurHash 或类似算法
 * h 是一个整数哈希值
   
2. 确定特征索引：
    ```python
    index = abs(h) % n_features
    ```
 * n_features 是输出向量的维度
 * 确保索引落在 [0, n_features-1] 范围内
3. 确定特征符号（可选）：
    ```python
    sign = (-1) ^ (h & 1)  # 当 h 的最低位为 1 时符号为负
    ```
 * 通过 alternate_sign=True 参数启用
 * 减少哈希冲突带来的偏差
4. 更新特征向量：
    ```python
    vector[index] += sign * value
    ```
 * 将哈希后的特征值累加到对应索引位置


### 图解哈希过程
假设我们有以下特征：

In [None]:
features = {'city=北京': 1, 'temperature': 22}
n_features = 8  # 输出维度为 8

哈希过程如下：
1. 计算 "city = 北京" 的哈希值：
    * 假设 hash("city=北京") = 94732845
    * 索引：94732845 % 8 = 5
    * 符号位：94732845 & 1 = 1 → 符号为 -1
    * 结果：向量索引 5 位置减去 1
2. 计算 "temperature" 的哈希值：
    * 假设 hash("temperature") = 12345678
    * 索引：12345678 % 8 = 6
    * 符号位：12345678 & 1 = 0 → 符号为 +1
    * 结果：向量索引 6 位置加上 22
3. 最终特征向量：
```python
[0, 0, 0, 0, 0, -1, 22, 0]
```

### 关键技术细节
1. 哈希冲突处理：
    * 不同特征可能被哈希到相同索引（如 hash(name1) % 8 == hash(name2) % 8）
    * alternate_sign=True 通过符号位减少冲突影响：
```python
冲突特征1: (index=5, sign=-1, value=1)
冲突特征2: (index=5, sign=+1, value=2)
→ 最终向量索引5的值为: (-1*1) + (+1*2) = 1
```

2. 稀疏矩阵优化：
    * 大多数索引位置为 0
    * 使用稀疏矩阵存储（如 CSR 格式）节省内存
    * 示例：3 个特征映射到 100 万维空间 → 仅 3 个非零元素
3. 无状态转换：
    * 无需预先拟合（unlike DictVectorizer）
    * 相同特征始终映射到相同索引
    * 适合在线学习和流式数据处理

### 源码级实现示例

```python
import numpy as np
from sklearn.utils.murmurhash import murmurhash3_bytes_s32

def simple_feature_hasher(features, n_features=8, alternate_sign=True):
    """简化版特征哈希实现"""
    # 初始化稀疏向量（使用密集数组便于展示）
    vector = np.zeros(n_features)
    
    for name, value in features.items():
        # 将特征名转换为字节
        name_bytes = name.encode('utf-8')
        
        # 计算32位哈希值（与scikit-learn一致）
        h = murmurhash3_bytes_s32(name_bytes, seed=0)
        
        # 计算索引
        index = abs(h) % n_features
        
        # 计算符号（如果启用）
        if alternate_sign:
            sign = -1 if (h & 1) else 1
        else:
            sign = 1
        
        # 更新向量
        vector[index] += sign * value
    
    return vector

# 测试
features = {'city=北京': 1, 'temperature': 22, 'humidity=high': 1}
hashed_vector = simple_feature_hasher(features, n_features=8)
print("哈希结果:", hashed_vector)
```

### 优缺点分析
<B>优点：<B>    
   * 无需存储特征字典，内存效率极高
   * 快速转换，适合实时处理
   * 天然支持未见过的特征（无需额外处理）    
<B>缺点：<B>    
   * 哈希冲突不可避免（但可通过 n_features 和 alternate_sign 缓解）
   * 不可逆：无法从哈希结果反推原始特征
   * 特征解释性差：无法知道哪个索引对应哪个原始特征