CounterfietAppClassify

软件安全大作业-识别仿冒app

检测原理

基于短文本相似度、字符串间编辑距离以及特征向量间的余弦相似度进行综合研判。

短文本相似度

选取metadata中的description_html字段，求相似度。

文本预处理

去掉所有带符号的词，如邮箱后缀、hyphen连词、缩写等；
去掉非英文的词汇；
小写化；
去长度小于3的单词，去掉数字和包含符号的单词；
去除'the'、'about'等停用词(停用词示例)；
进行词性标注,标记每个词的词性；
进行词形还原,去掉单词的词缀，提取单词的主干部分;
计算各个token的TFIDF值,即"词频-逆文本频率"。

训练模型

基于预处理的文本，建立词向量，采用Skip-Gram训练神经网络，优化收敛词向量；
将训练好的模型和文本序列化至本地。

比较相似度

比较每两个文件对应向量的相似度。

字符串相似度

选取metadata中的title、package_name、developer_email等字段，比较相似度。

采用字符串的编辑距离度量相似度。

特征向量相似度

选取metadata中的app_category、app_type、permission等字段，建立词汇表和特征向量，比较相似度。

建立词汇表，取词汇表下标并进行归一化，将最后所得数值作为特征向量；
计算特征向量间的余弦相似度。

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
common		common
learn		learn
preprocess		preprocess
resource		resource
text_analysis		text_analysis
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

common

common

learn

learn

preprocess

preprocess

resource

resource

text_analysis

text_analysis

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

main.py

main.py

requirements.txt

requirements.txt

Repository files navigation

CounterfietAppClassify

检测原理

短文本相似度

文本预处理

训练模型

比较相似度

字符串相似度

特征向量相似度

About

Releases

Packages

Contributors 2

Languages

License

jumormt/CounterfietAppClassify

Folders and files

Latest commit

History

Repository files navigation

CounterfietAppClassify

检测原理

短文本相似度

文本预处理

训练模型

比较相似度

字符串相似度

特征向量相似度

About

Resources

License

Stars

Watchers

Forks

Languages