Skip to content

cabbageNoob/addressextract

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

addressextract

中国城乡地区爬虫

爬取中国城乡数据,数据统计时间是2019年,有请求重试机制,执行代码即可获取所有省市五级地址,数据以json格式存储

{
    "北京市": {
        "市辖区": {
            "东城区": {
                "东华门街道": [
                    "多福巷社区居委会",
                    "银闸社区居委会",
                    "东厂社区居委会",
                    "智德社区居委会",
                    "南池子社区居委会",
                    "黄图岗社区居委会",
                    "灯市口社区居委会",
                    "正义路社区居委会",
                    "甘雨社区居委会",
                    "台基厂社区居委会",
                    "韶九社区居委会",
                    "王府井社区居委会"
                ],
                "景山街道": [
                    "隆福寺社区居委会",
                    "吉祥社区居委会",
                    ······
                ]
            }
        }
    }
}

地址抽取

有两种方式,具体例子可参看测试文件

  • 使用AC自动机的正向最长匹配
  • 使用nlpir分词工具,根据词性标注,发现文本中最长的地址串

地址补全

done

地址纠错

done

About

地址抽取工具

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages