# 又双叒叕——汉字的堆叠
+ slug: repeating-hanzi
+ date: 2017-05-16

你可能会有这样的问题：[类似“又双叒叕”这样子的汉字有多少？](https://www.zhihu.com/question/31787925/answer/170567014)本文就是对此问题的分析。

## 数据来源
原始数据来源于参考维基百科条目[二叠字](https://zh.wikipedia.org/wiki/%E4%BA%8C%E5%8F%A0%E5%AD%97)、[三叠字](https://zh.wikipedia.org/wiki/%E4%B8%89%E5%8F%A0%E5%AD%97)、[四叠字](https://zh.wikipedia.org/wiki/%E5%9B%9B%E5%8F%A0%E5%AD%97)。

格式化后的的数据，参见[源文件](https://github.com/peijunz/peijunz.github.io/tree/src/content/Statistics)。

本页面含有[Unihan](https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%B5%B1%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97)新版用字。有关字符可能会错误显示，详见Unicode扩展汉字。

## 数据分析
使用pandas进行数据表连接查询，可以找到同时具有多种叠字的字。

In [1]:
import pandas as pd
from functools import reduce

In [2]:
data=[pd.read_table('%d.txt'%i) for i in range(2, 5)]

In [3]:
def merge_out(x, y):
    return pd.merge(x, y, on='单', how='outer')
jointed=reduce(merge_out, data)

## 具有多种堆叠方式的字

### 具有二三四堆叠

In [4]:
jointed.dropna()

Unnamed: 0,单,双,三,四
1,一,二,三,亖
16,人,仌,众,𠈌
17,人,仌,㐺,𠈌
18,人,从,众,𠈌
19,人,从,㐺,𠈌
36,厶,厸,厽,𠫬
37,厶,㕕,厽,𠫬
38,又,双,叒,叕
39,又,㕛,叒,叕
40,口,吅,品,㗊


### 具有二三四堆叠的单字

In [30]:
def single_word(table):
    return ''.join(table.dropna()['单'].drop_duplicates().tolist())

In [31]:
single_word(jointed)

'一人厶又口土屮日木朿果水火牛田石老言車金風魚龍'

### 金木水火土
+ 金	鍂	鑫	𨰻
+ 木	林	森	𣛧	𣡽
+ 土	圭	垚	㙓
+ 水	沝	淼	㵘
+ 火	炏	焱	燚

### 只具有二三堆叠的单字

In [34]:
S3=set(single_word(jointed[['单','双','三']]))
S4=set(single_word(jointed))
''.join(S3-S4)

'女香馬力虫户瓜欠舌ㄑ子㔾太耳手毛隹飞生犬山白面大心吉目弓'

## 双叠字

In [6]:
jointed[['单','双']].drop_duplicates().dropna()

Unnamed: 0,单,双
0,ㄑ,巜
1,一,二
2,卄,卌
3,串,丳
4,乂,爻
5,尹,𡱉
6,𠂢,𠃄
7,乙,𠃐
8,九,𠃙
9,习,羽


## 三叠字

In [7]:
jointed[['单','三']].drop_duplicates().dropna()

Unnamed: 0,单,三
0,ㄑ,巛
1,一,三
16,人,众
17,人,㐺
30,力,劦
35,㔾,𠨕
36,厶,厽
38,又,叒
40,口,品
41,口,𠱠


## 四叠字

In [8]:
jointed[['单','四']].drop_duplicates().dropna()

Unnamed: 0,单,四
1,一,亖
4,乂,㸚
16,人,𠈌
26,先,𠓙
31,匕,𣬅
36,厶,𠫬
38,又,叕
40,口,㗊
53,土,㙓
65,屮,茻
