README

关于代码

.
├── README.md
├── data/
│   ├── IPpool.json
│   ├── README.md
│   ├── char-data/
│   └── word-data/
└── src/
    ├── char.py
    └── word.py

代码在src/下，分为word.py和char.py。在src/目录下：

使用python word.py，在输入需要爬取的unicode 汉字的范围后，即可实现对这个范围内所有的汉字所成的词的爬取，得到的数据文件以json形式存储在data/下。默认情况下，只对每个字的所成词的第一页进行爬取，若要爬取所有的词，在word.py下对getWordList调用的地方将getWordList(char, IPs)改为getWordList(char, IPs, one_page=False)，只需要在if name == '__main__':下修改一处即可。
使用python char.py，在输入需要爬取的unicode 汉字的范围后，即可实现对这个范围内所有汉字的爬取，得到的数据文件以json形式存储在data/下。
本代码使用了IP代理，请将代理使用的IP以如下json的格式存于data/下，命名为IpPool.json：
```
{"data":
 [{"ip":"0.0.0.0","port":1111},
  ...
 ]
}
```

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
src		src
.gitignore		.gitignore
README.md		README.md