Skip to content

百度汉语爬虫,爬取unicode字符集中所有汉字及所有汉字所成所有词的信息,信息包括拼音、释义、百科释义、英文翻译

Notifications You must be signed in to change notification settings

yuxguo/Baidu-Hanyu-crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 

Repository files navigation

README

关于代码

  • 本代码为爬取百度汉字内收录的所有unicode汉字及其所成所有词的爬虫代码。

如何使用

.
├── README.md
├── data/
│   ├── IPpool.json
│   ├── README.md
│   ├── char-data/
│   └── word-data/
└── src/
    ├── char.py
    └── word.py

代码在src/下,分为word.pychar.py。在src/目录下:

  • 使用python word.py,在输入需要爬取的unicode 汉字的范围后,即可实现对这个范围内所有的汉字所成的词的爬取,得到的数据文件以json形式存储在data/下。默认情况下,只对每个字的所成词的第一页进行爬取,若要爬取所有的词,在word.py下对getWordList调用的地方将getWordList(char, IPs)改为getWordList(char, IPs, one_page=False),只需要在if name == '__main__':下修改一处即可。

  • 使用python char.py,在输入需要爬取的unicode 汉字的范围后,即可实现对这个范围内所有汉字的爬取,得到的数据文件以json形式存储在data/下。

  • 本代码使用了IP代理,请将代理使用的IP以如下json的格式存于data/下,命名为IpPool.json

    {"data":
     [{"ip":"0.0.0.0","port":1111},
      ...
     ]
    }

About

百度汉语爬虫,爬取unicode字符集中所有汉字及所有汉字所成所有词的信息,信息包括拼音、释义、百科释义、英文翻译

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages